03.09.2024, 12:04

МАИ

Виртуальные птицы и синтетические камни: в МАИ рассказали о том, как «думают» нейросети

❋ 4.5

Зачем искусственному интеллекту миллионы синтетических «камней», как создать виртуального врача и при чем здесь «метод Монте-Карло»? Об этом и многом другом рассказал научный сотрудник института «Компьютерные науки и прикладная математика» МАИ, директор департамента цифровой трансформации в компании BetBoom Юрий Чайников.

МАИ

# анализ данных

# ИИ

# искусственный интеллект

# метод Монте-Карло

# нейросети

Обучающий симулятор для авиадиспетчеров / © Крис Десмонд, commons.wikimedia.org

Пользуясь плодами работы искусственного интеллекта, мы мало задумываемся над тем, каким образом бездушная машина учится «думать». А между тем, процесс ее обучения мало чем отличается от нашего. Чтобы научиться предсказывать события, распознавать объекты или имитировать человеческое поведение, нейросети должны методом «проб и ошибок» изучить сотни тысяч, миллионы и даже триллионы случаев. Перед разработчиком неизбежно встает вопрос: где получить такое количество примеров. И здесь как раз на помощь приходят искусственно сгенерированные, синтетические данные.

«Причины создания синтетических данных – экономические. Можно потратить терафлопсы на продолжение вычислительного эксперимента с расчетом поведения крыла проектируемого самолета, но это займет месяцы работы суперкомпьютера. Это, во-первых, стоит денег, а, во-вторых, – занимает время, а оно в инженерных разработках — дорого. Но главное, некоторые данные нельзя или запредельно дорого получить естественным образом. Например, если мы моделируем разрушение самолетного крыла при встрече со стаей птиц, то кто же нам даст разбить тысячу самолетов о настоящих птиц, которые летят в аэродинамической трубе?

А тысячу раз смоделировать, как эти птицы неупругим образом разбиваются о крыло – это, пожалуйста. Или, например, если мы испытываем прочность ленты конвейера, то мы не разрежем настоящий конвейер, чтобы он в конце концов порвался. Это просто невозможная ситуация и по соображениям экономики, и по соображениям безопасности. Или в случае редких болезней. Как мы можем научить нейросеть распознавать симптомы редких недугов, если ими заболевают всего по сто человек в год? Негде взять сотни тысяч, миллионы кейсов, которые необходимы для обучения нейросети. Можно, конечно, копить данные 10 лет, но это долго. А в случаях аварийного поведения систем – и просто невозможно», – рассказывает эксперт.

Синтетические данные относительно дешевы и легкодоступны. Например, нам нужно создать нейросеть для определения негабаритов на конвейере на горно-обогатительном комбинате, чтобы слишком крупные «камни» не повредили мельницу, которая размалывает руду. Для этого искусственный интеллект должен научиться распознавать правильные «камни», чтобы отличать их от негабарита: причем, на сотнях тысяч штук. Но можно ли сделать столько «камней»?

«Конечно, можно. Ведь «камень» состоит из разных граней слома. В специальной программе по 3D-моделированию я могу указать, что «камень» у меня будет размером от 10 сантиметров до одного метра, он будет насечен разными плоскостями, под разными углами, их сочетание будет огромной вариативности, я могу их разложить разными текстурами, и в результате я могу сделать не то что сотни тысяч или миллион – триллион вариантов. Таким образом мы с коллегами сделали достаточно много экземпляров «камней», чтобы этого хватило для тюнинга нейросети, которая анализировала руду. Генерация одной сцены на обычном компьютере с не самой топовой видеокартой занимала одну секунду. Несколько дней непрерывных вычислений, и нужного размер датасет готов. Можно сделать и быстрее, если распараллелить вычисления», – говорит Юрий Чайников.

Научный сотрудник института «Компьютерные науки и прикладная математика» МАИ, директор департамента цифровой трансформации в компании BetBoom Юрий Чайников / © Личный архив Юрия Чайникова

Синтетические данные не тождественны реальным, хотя зачастую неотличимы от них, иначе нейросеть, обученная на оторванной от действительности информации, не сможет решать поставленные перед ней задачи.

«Например, если мы тренируем медицинскую нейросеть, имитирующую доктора, которому предстоит изучать анамнез пациента, то ее придется учить на диалогах, которые должны выглядеть как настоящие. Потому что если мы будем тренировать ее на рафинированных данных, то нейросеть будет хуже работать. Одно дело – профессиональная озвучка в студии, другое – когда мы пытаемся расшифровать обычный разговор. Здесь и перебивание, и междометья, и слова-паразиты, и обрывки фраз, слов, потому что естественный разговор всегда содержит часть контекста, который передается невербальным образом. И в этот момент нейросеть, которая натренирована на «чистых данных», например на диалогах в фильмах, пасует, поэтому-то синтетические данные должны быть похожи на настоящие до степени смешения», – объясняет Чайников.

Практически не отличаясь от реальных, синтетические данные все же уступают им в многообразии. Однако именно синтетические данные позволяют создать очень много вариаций для тех самых редких случаев, на которые и надо «натаскать» нейросеть. Именно это и позволяет ей более детально изучить кейс и выработать обобщающие внутренние признаки. Этой цели разработчикам помогает достичь «метод Монте-Карло».

«Метод Монте-Карло» – это очень наукообразное выражение для обозначения генератора случайных чисел, – говорит эксперт. – За исключением каких-то совершенно уникальных случаев, этот метод всегда используется для генерации синтетических данных. Ведь смысл синтетических данных, чтобы они варьировались в качестве результата генерации в неких обозначенных экспериментатором пределах. Чтобы понять, насколько важен фактор случайности, приведу такой пример. Человеку довольно тяжело исполнить приказ: «Напиши 10 разных вариантов заметки, от самого сухого до совершенно разнузданного». Это очень трудная для человеческой психики задача: у каждого журналиста есть свой стиль, который довольно тяжело модифицировать, в конце концов он может не знать, например, стилистики дворового жаргона.

А если мы, например, обучаем виртуального доктора, чтобы он был способен разговаривать с малообразованным человеком, то в синтетических диалогах нужно часть данных сгенерировать таким образом, чтобы собеседник отыгрывал роль человека, который владеет плохим словарным запасом и не может обсуждать свои симптомы в строгих медицинских терминах. И это тот самый «метод Монте-Карло». Я могу сказать нейросети: «Вот тебе 20 вариантов описания того, какой типаж ты отыгрываешь, на каждый из них сделай 10 вариантов поведения: по полу, возрасту, уровню образования». И генеративная нейросеть варьирует токены, которые в нашей психике складываются в понятие стилистики диалога, что в результате тренировки на этих данных безусловно увеличивает конечную точность натренированной на этих данных модели виртуального доктора».

Для лидеров индустрии, таких как OpenAI, работу по созданию синтетических данных проделывают компании. Так, по экспертным оценкам, компания Scal AI за 2023 год удвоила выручку от своей деятельности, а в 2024 году планирует выйти в «миллиардеры». Однако это скорее исключение, чем правило.

«Как правило, эта задача неотделима от задачи натренировать нейросеть. Нет никаких сомнений, что и «Яндекс», и «Сбер» как ведущие в этом направлении компании в России, использовали «синтетику», чтобы натренировать свои большие языковые генеративные модели», – заключает Юрий Чайников.

Материал подготовлен при поддержке Минобрнауки России.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский авиационный институт (национальный исследовательский университет) ведёт свою историю с 20 марта 1930 года. Сегодня МАИ – ведущий высокотехнологичный вуз России, обеспечивающий подготовку инженерных кадров и проведение передовых научных исследований мирового уровня. В 2021 г. программа развития Московского авиационного института прошла отбор в рамках программы стратегического академического лидерства «Приоритет-2030». МАИ вошёл в первую группу университетов по треку «Территориальное и (или) отраслевое лидерство» программы «Приоритет 2030».

МАИ

# анализ данных

# ИИ

# искусственный интеллект

# метод Монте-Карло

# нейросети

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Через тернии к сверхновым

Парк «Зарядье»

Москва

Лекция

07 Фев

1400 ₽

Существуют ли разумные животные?

Medio Modo

Москва

Лекция

07 Фев

Бесплатно

Полет двуглавого орла. Какие дары Русь получила от Византии?

Центр славянской письменности «Слово»

Москва

Лекция

07 Фев

Бесплатно

Геология как Data Science: когда месторождение становится набором данных

Парк «Зарядье»

Москва

Лекция

07 Фев

Бесплатно

Электрический ток на службе органической химии

Парк «Зарядье»

Москва

Музей криптографии

Москва

ВСмысле

Санкт-Петербург

Лекция

07 Фев

Бесплатно

Железяки в космосе. Российские аппараты

Парк «Зарядье»

Москва

Medio Modo

Москва

Популярное

За сутки

За неделю

За месяц

6 февраля, 13:18

Илья Гриднев

Эксперимент показал, как материя рождается из квантового вакуума

Физики экспериментально доказали, что частицы вещества при рождении сохраняют квантовую запутанность виртуальных предшественников. Пары лямбда-гиперонов и антилямбд появлялись на свет с синхронизированными спинами, которые они унаследовали от энергетических флуктуаций пустоты. Закономерность объяснила, как материя переходит из скрытого квантового состояния в физический мир, раскрыв еще один ключ к природе возникновения массы.

Физика

# кварки

# материя

# энергия вакуума

6 февраля, 10:11

Александр Березин

Борьба с озоновыми дырами стала основным новым источником «вечных химикатов» в атмосфере

В 1980-х годах большую популярность приобрела борьба с озоновыми дырами. Из-за нее хладагенты из хлорфторгулеродов заменили на аналоги из гидрофторуглеродов. Теперь ученые выяснили, что эта замена — как и следующие за ней, уже в рамках борьбы с глобальным потеплением — ведет к накоплению в атмосфере довольно опасных «вечных химикатов».

Химия

# вечные химикаты

# ПФАС

# фреоны

4 февраля, 08:26

Полина Меньшова

Голоса «детей» викторианской эпохи показали, как индустриализация изменила акценты английского языка

Современные акценты английского языка во многом отражают социально-экономические процессы, происходившие в Великобритании в викторианскую эпоху, то есть с 1837 года по 1901 год. Лингвисты доказали это, проанализировав архивные аудиозаписи разговоров с людьми, которые родились в указанный период и после него.

Психология

# акцент

# английский язык

# Великобритания

# диалект

# индустриальное общество

2 февраля, 12:56

Илья Гриднев

Королевские кобры в Индии регулярно уезжали не туда на поезде

Биологи использовали данные отлова змей за 22 года, чтобы объяснить появление редких ядовитых рептилий в засушливых и нетипичных для них районах штата Гоа. Анализ показал, что королевские кобры Западных Гат используют железнодорожную сеть как скоростной коридор для расселения, случайно путешествуя в товарных вагонах из родных лесов к побережью.

Биология

# змеи

# миграция

# поезда

2 февраля, 08:40

Любовь С.

Первая «сфотографированная» черная дыра оказалась источником мощного джета

Астрономы впервые напрямую связали основание гигантского джета с «тенью» первой «сфотографированной» сверхмассивной черной дыры M87*. Анализ данных, полученных с помощью Телескопа горизонта событий (EHT), позволил проследить, где именно формируется релятивистская струя и лучше понять механизмы ее возникновения.

Астрономия

# аккреционный диск

# джет

# М87

# релятивистский джет

# сверхмассивная черная

# Телескоп горизонта событий

2 февраля, 15:19

РТУ МИРЭА

Физик объяснил, в чем опасность «ватрушки» для катания на льду, и призвал отказаться от нее

Яркий надувной тюбинг, в народе прозванный «ватрушкой», стал символом зимнего отдыха. Он кажется удобным, мягким и потому — безопасным. Это ощущение обманчиво и ежегодно приводит к тысячам серьезных травм. В чем же кроется фундаментальная опасность этого популярного развлечения? На этот вопрос для нашего издания ответил Олег Рубан, кандидат технических наук, доцент кафедры физики РТУ МИРЭА, объяснив, почему законы физики превращают безобидный на вид тюбинг в неуправляемый снаряд.

РТУ МИРЭА

# отдых

# отдых на природе

# потенциальная опасность

# скорость

# спорт

12 января, 15:39

Александр Березин

Рыбы захватили Мировой океан только благодаря массовому вымиранию

От рыб произошли все наземные позвоночные, включая нас, но как именно рыбы стали главным населением морей — до последнего времени оставалось неясным. Авторы новой научной работы попытались доказать, что причиной этого было вымирание, возможно, вызванное белыми ночами.

Палеонтология

# биология

# массовые вымирания

# ордовикско-силурийское вымирание

# Палеонтология

# рыбы

# челюстноротые

28 января, 10:50

Игорь Байдов

В Мексике нашли небольшого динозавра, решавшего споры лбом

Международная команда палеонтологов описала новый вид динозавра размером с крупную современную птицу. Он носил на голове плотный костяной нарост, который эти животные, возможно, использовали для внутривидовых разборок. Находка показывает, что даже мелкие хищники мелового периода могли решать конфликты не только когтями и зубами, но и ударами головой.

Палеонтология

# динозавры

# древние виды

# древние животные

# меловой период

26 января, 14:26

Александр Березин

Анализ лунного грунта опроверг космическое происхождение земной воды

Образцы грунта, взятые астронавтами полвека назад, вложили еще один важный кирпич в здание научной картины мира: гипотеза о том, что Земля исходно была сухой, не стыкуется с фактами. Похоже, идею о невозможности сохранения большого количества воды на «теплых» планетах придется пересмотреть.

Астрономия

# внеземная вода

# Земля

# Луна

[miniorange_social_login]

Виртуальные птицы и синтетические камни: в МАИ рассказали о том, как «думают» нейросети

По теме

Искусственный интеллект научили смотреть на проблему под разными углами

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

В ТюмГУ научились лучше управлять «умными электросетями»

Популярное

Эксперимент показал, как материя рождается из квантового вакуума

Борьба с озоновыми дырами стала основным новым источником «вечных химикатов» в атмосфере

Голоса «детей» викторианской эпохи показали, как индустриализация изменила акценты английского языка

Королевские кобры в Индии регулярно уезжали не туда на поезде

Первая «сфотографированная» черная дыра оказалась источником мощного джета

Физик объяснил, в чем опасность «ватрушки» для катания на льду, и призвал отказаться от нее

Рыбы захватили Мировой океан только благодаря массовому вымиранию

В Мексике нашли небольшого динозавра, решавшего споры лбом

Анализ лунного грунта опроверг космическое происхождение земной воды

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Город на орбите

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

5 историй: Полеты животных в космос

Свобода воли — иллюзия или реальность?

Какие бывают галактики?

«Мозырь»: возродится ли самый необычный противоракетный комплекс?

Это все химия! Хорошо ли вы ее знаете? Тест Naked Science

Виртуальные птицы и синтетические камни: в МАИ рассказали о том, как «думают» нейросети

По теме

Искусственный интеллект научили смотреть на проблему под разными углами

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

В ТюмГУ научились лучше управлять «умными электросетями»

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?