Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Виртуальные птицы и синтетические камни: в МАИ рассказали о том, как «думают» нейросети
Зачем искусственному интеллекту миллионы синтетических «камней», как создать виртуального врача и при чем здесь «метод Монте-Карло»? Об этом и многом другом рассказал научный сотрудник института «Компьютерные науки и прикладная математика» МАИ, директор департамента цифровой трансформации в компании BetBoom Юрий Чайников.
Пользуясь плодами работы искусственного интеллекта, мы мало задумываемся над тем, каким образом бездушная машина учится «думать». А между тем, процесс ее обучения мало чем отличается от нашего. Чтобы научиться предсказывать события, распознавать объекты или имитировать человеческое поведение, нейросети должны методом «проб и ошибок» изучить сотни тысяч, миллионы и даже триллионы случаев. Перед разработчиком неизбежно встает вопрос: где получить такое количество примеров. И здесь как раз на помощь приходят искусственно сгенерированные, синтетические данные.
«Причины создания синтетических данных – экономические. Можно потратить терафлопсы на продолжение вычислительного эксперимента с расчетом поведения крыла проектируемого самолета, но это займет месяцы работы суперкомпьютера. Это, во-первых, стоит денег, а, во-вторых, – занимает время, а оно в инженерных разработках — дорого. Но главное, некоторые данные нельзя или запредельно дорого получить естественным образом. Например, если мы моделируем разрушение самолетного крыла при встрече со стаей птиц, то кто же нам даст разбить тысячу самолетов о настоящих птиц, которые летят в аэродинамической трубе?
А тысячу раз смоделировать, как эти птицы неупругим образом разбиваются о крыло – это, пожалуйста. Или, например, если мы испытываем прочность ленты конвейера, то мы не разрежем настоящий конвейер, чтобы он в конце концов порвался. Это просто невозможная ситуация и по соображениям экономики, и по соображениям безопасности. Или в случае редких болезней. Как мы можем научить нейросеть распознавать симптомы редких недугов, если ими заболевают всего по сто человек в год? Негде взять сотни тысяч, миллионы кейсов, которые необходимы для обучения нейросети. Можно, конечно, копить данные 10 лет, но это долго. А в случаях аварийного поведения систем – и просто невозможно», – рассказывает эксперт.
Синтетические данные относительно дешевы и легкодоступны. Например, нам нужно создать нейросеть для определения негабаритов на конвейере на горно-обогатительном комбинате, чтобы слишком крупные «камни» не повредили мельницу, которая размалывает руду. Для этого искусственный интеллект должен научиться распознавать правильные «камни», чтобы отличать их от негабарита: причем, на сотнях тысяч штук. Но можно ли сделать столько «камней»?
«Конечно, можно. Ведь «камень» состоит из разных граней слома. В специальной программе по 3D-моделированию я могу указать, что «камень» у меня будет размером от 10 сантиметров до одного метра, он будет насечен разными плоскостями, под разными углами, их сочетание будет огромной вариативности, я могу их разложить разными текстурами, и в результате я могу сделать не то что сотни тысяч или миллион – триллион вариантов. Таким образом мы с коллегами сделали достаточно много экземпляров «камней», чтобы этого хватило для тюнинга нейросети, которая анализировала руду. Генерация одной сцены на обычном компьютере с не самой топовой видеокартой занимала одну секунду. Несколько дней непрерывных вычислений, и нужного размер датасет готов. Можно сделать и быстрее, если распараллелить вычисления», – говорит Юрий Чайников.
Синтетические данные не тождественны реальным, хотя зачастую неотличимы от них, иначе нейросеть, обученная на оторванной от действительности информации, не сможет решать поставленные перед ней задачи.
«Например, если мы тренируем медицинскую нейросеть, имитирующую доктора, которому предстоит изучать анамнез пациента, то ее придется учить на диалогах, которые должны выглядеть как настоящие. Потому что если мы будем тренировать ее на рафинированных данных, то нейросеть будет хуже работать. Одно дело – профессиональная озвучка в студии, другое – когда мы пытаемся расшифровать обычный разговор. Здесь и перебивание, и междометья, и слова-паразиты, и обрывки фраз, слов, потому что естественный разговор всегда содержит часть контекста, который передается невербальным образом. И в этот момент нейросеть, которая натренирована на «чистых данных», например на диалогах в фильмах, пасует, поэтому-то синтетические данные должны быть похожи на настоящие до степени смешения», – объясняет Чайников.
Практически не отличаясь от реальных, синтетические данные все же уступают им в многообразии. Однако именно синтетические данные позволяют создать очень много вариаций для тех самых редких случаев, на которые и надо «натаскать» нейросеть. Именно это и позволяет ей более детально изучить кейс и выработать обобщающие внутренние признаки. Этой цели разработчикам помогает достичь «метод Монте-Карло».
«Метод Монте-Карло» – это очень наукообразное выражение для обозначения генератора случайных чисел, – говорит эксперт. – За исключением каких-то совершенно уникальных случаев, этот метод всегда используется для генерации синтетических данных. Ведь смысл синтетических данных, чтобы они варьировались в качестве результата генерации в неких обозначенных экспериментатором пределах. Чтобы понять, насколько важен фактор случайности, приведу такой пример. Человеку довольно тяжело исполнить приказ: «Напиши 10 разных вариантов заметки, от самого сухого до совершенно разнузданного». Это очень трудная для человеческой психики задача: у каждого журналиста есть свой стиль, который довольно тяжело модифицировать, в конце концов он может не знать, например, стилистики дворового жаргона.
А если мы, например, обучаем виртуального доктора, чтобы он был способен разговаривать с малообразованным человеком, то в синтетических диалогах нужно часть данных сгенерировать таким образом, чтобы собеседник отыгрывал роль человека, который владеет плохим словарным запасом и не может обсуждать свои симптомы в строгих медицинских терминах. И это тот самый «метод Монте-Карло». Я могу сказать нейросети: «Вот тебе 20 вариантов описания того, какой типаж ты отыгрываешь, на каждый из них сделай 10 вариантов поведения: по полу, возрасту, уровню образования». И генеративная нейросеть варьирует токены, которые в нашей психике складываются в понятие стилистики диалога, что в результате тренировки на этих данных безусловно увеличивает конечную точность натренированной на этих данных модели виртуального доктора».
Для лидеров индустрии, таких как OpenAI, работу по созданию синтетических данных проделывают компании. Так, по экспертным оценкам, компания Scal AI за 2023 год удвоила выручку от своей деятельности, а в 2024 году планирует выйти в «миллиардеры». Однако это скорее исключение, чем правило.
«Как правило, эта задача неотделима от задачи натренировать нейросеть. Нет никаких сомнений, что и «Яндекс», и «Сбер» как ведущие в этом направлении компании в России, использовали «синтетику», чтобы натренировать свои большие языковые генеративные модели», – заключает Юрий Чайников.
Материал подготовлен при поддержке Минобрнауки России.
Ученые из Австралии исследовали влияние сексуальной активности, а именно — самоудовлетворения и полового контакта с партнером — на объективные и субъективные параметры сна, в том числе на мотивацию поутру и готовность к новому дню.
В 2023 году руководство особой экономической зоны «Алабуга» представило план развития до 2048-го: он предполагает освоение космического пространства.
Стартап «Фистех», созданный на базе Сколтеха, впервые в России сконструировал и успешно протестировал фотонные интегральные схемы (ФИС) для работы с высокочастотными сигналами с шириной полосы до 22 гигагерца. Разработка нацелена на обеспечение российских производителей телекоммуникационными решениями на базе отечественных ФИС.
Ученые из Сколтеха исследовали разнообразие молекул, которые могут образовываться из атомов кислорода и углерода. Помимо широко известных углекислого и угарного газов, моделирование обнаружило две сотни экзотических, но относительно стабильных соединений этих двух элементов, многие из которых не были описаны ранее. Этот класс веществ представляет интерес для исследований космоса, аккумуляторных технологий, биохимии и — неожиданным образом — для разработки промышленной взрывчатки и ракетного топлива. Как оказалось, некоторые из открытых веществ при распаде будут высвобождать более 75 процентов взрывной энергии тротила.
Два ключевых события сыграли решающую роль в формировании генетического профиля современных европейских народов. Первое связано с приходом ранних фермеров из Анатолии примерно восемь тысяч лет назад, второе — масштабная миграция на запад носителей ямной степной культуры, начавшаяся пять тысяч лет назад. Однако ученые видят множество отличий от общей картины в разных регионах. В новой работе они проанализировали ДНК древних жителей самого северо-запада Европы и обнаружили более тесную связь с охотниками-собирателями, чем где бы то ни было.
В архивах английского поместья столетиями пылилась ничем не примечательная книга учета XVI века. Никто не подозревал, что внутри ее переплета скрываются фрагменты пергамента с историями, которые переписывали монахи семь веков назад. Тайна раскрылась, когда архивариус заметил странные символы на обложке. Так началось расследование, объединившее разных ученых. Исследователи три года пытались прочитать текст, не прикасаясь к нему. Теперь они представили результат своего труда — мир получил два ранее неизвестных эпизода о волшебнике Мерлине, короле Артуре и рыцаре Гавейне.
В двойственных, или обратимых, изображениях зритель может увидеть разные объекты в зависимости от того, на каких деталях концентрируется его внимание. Среди известных примеров таких рисунков — иллюзия «кролик-утка», сочетающая двух животных, и обратимая ваза (или ваза Рубина), которая может казаться двумя силуэтами лиц, если сосредоточиться на фоне. В соцсетях и популярных СМИ часто публикуют подобные картинки, утверждая, что по тому, какое изображение человек видит в первую очередь, можно судить о его личностных чертах и особенностях мышления. Двое психологов из Великобритании недавно проверили, так ли это на самом деле.
Когда пара расстается, многие люди продолжают испытывать чувства к своим бывшим. Если разрыв произошел по инициативе другой стороны и отношения длились много лет, полностью «забыть» еще недавно близкого человека может быть непросто. Существует мнение, что и после расставания привязанность к экс-партнерам в какой-то мере сохраняется. Впрочем, согласно другой точке зрения, со временем эта эмоциональная связь ослабевает и утрачивается. Разобраться, как происходит на самом деле и сколько времени может потребоваться на полный эмоциональный разрыв с бывшими возлюбленными, взялись психологи из Иллинойсского университета в Урбане-Шампейне (США).
Масштабный анализ геномов показал, что вид Homo sapiens возник в результате смешения двух древних популяций. Они разделились полтора миллиона лет назад, а затем воссоединились до расселения по миру.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии