Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
В НИУ ВШЭ научили нейросети распознавать юмор по-человечески
Группа ученых факультета компьютерных наук НИУ ВШЭ провела исследование способности нейросетей распознавать юмор. Выяснилось, что для более надежного распознавания следует изменить подход к созданию наборов данных, на которых обучаются нейросети.
Доклад на основе исследования был представлен на одной из важнейших мировых конференций по теме обработки естественного языка — EMNLP 2023. Текст статьи доступен по ссылке.
Сегодня голосовые помощники могут только рассказать готовый анекдот, придумать же свой или распознать шутливый тон они не в состоянии. При этом пользователи голосовых помощников, созданных на основе технологии искусственного интеллекта, хотят от них большей человечности — способности распознать шутку и пошутить.
С середины 2000-х годов ученые занимаются распознаванием юмора как задачей классификации «смешно — не смешно», в этой же рамке собираются и размечаются датасеты (набор данных). Группа ученых из ВШЭ предложила изменить подходы к формированию таких датасетов — сделать их более разнообразными, причем наборы данных не обязательно должны быть очень большими.
Задача распознавания юмора сложна еще и потому, что отсутствуют формальные критерии для определения того, что смешно, а что нет. Сейчас большинство датасетов для обучения и оценки моделей распознавания юмора содержат каламбуры (puns). Сарказм и ирония еще более сложны, как и ситуативный юмор, требующий знания контекста или культурного кода.
«Мы хотели оценить переносимость и устойчивость моделей, обученных на разных датасетах. Переносимость — это то, насколько обученная на датасете с одним типом юмора модель хорошо определяет другой тип юмора. Было совсем не очевидно, как будет работать обучение, потому что юмор бывает разным», — рассказывает доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский.
Устойчивость же ученые проверяли «состязательными атаками» — попытками заставить нейросеть увидеть юмор там, где его нет. Нейросеть получала несмешной, но формально похожий на юмористический текст — вместо каламбура в диалоге использовалось «неправильное» созвучное слово. Чем меньше сеть попадается в такие ловушки, тем она более устойчива.
Исследователи обучали модели на стандартных датасетах для распознавания юмора и на их смесях. Кроме того, модели проходили проверку диалогами из «Алисы в Стране чудес» Льюиса Кэрролла, «Лавки древностей» Чарльза Диккенса, «Троих в лодке, не считая собаки» Джерома К. Джерома, сериалов «Ходячие мертвецы», «Друзья» и коллекцией ироничных твитов.
Оказалось, что некоторые модели переобучаются и считают все смешным. «Мы показали разным моделям “Лавку древностей” Диккенса, а это очень грустная история, и попросили оценить происходящее. Выяснилось, что некоторые модели считают, что все диалоги из литературы XIX века смешные. И даже больше — все, что слишком непохоже на новости XXI века, принимается как юмор», — комментирует аспирант факультета компьютерных наук НИУ ВШЭ Александр Баранов.
Модели, натренированные на каламбурах, чаще ошибаются, если в несмешном тексте одно слово заменено на созвучное. Также выяснилось, что нейросети, натренированные на небольших частях разных датасетов, распознают юмор лучше, чем обученные на большом объеме однотипных данных. Авторы делают вывод, что существующие датасеты слишком узкие, юмор в каждом из них сильно ограничен, и это снижает качество распознавания шуток.
Исследователи предложили изменить подход к обучению и оценке моделей распознавания юмора. Нужны новые датасеты, более разнообразные и близкие к обычным разговорам, естественному общению. Большие языковые модели, например ChatGPT, обученные на огромных массивах данных разных типов, в среднем хорошо справляются с распознаванием юмора, и ученые предполагают, что дело именно в разнообразии данных, на которых они учились.
«Мы сейчас говорим только о бинарном распознавании юмора: смешно или не смешно. До определения оттенков юмора, различения сарказма и иронии, распознавания ситуативного, контекстуального юмора очень далеко. У наших голосовых помощников шутки пока “гвоздями приколочены” и обложены фильтрами, определяющими, какую шутку выдать в зависимости от слов пользователя. Такая запрограммированность ответов ощущается как неестественная. Запрос на большую человечность искусственного интеллекта абсолютно понятен, но удовлетворить его будет непросто», — говорит один из авторов исследования Владимир Княжевский, студент факультета компьютерных наук НИУ ВШЭ.
Исследование выполнено в рамках проекта Научно-учебной лаборатории моделей и методов вычислительной прагматики. Доклад на конференции в Сингапуре представлял аспирант факультета компьютерных наук НИУ ВШЭ Александр Баранов, его участие было профинансировано НИУ ВШЭ.
В остатках протопланетного диска совсем недавно родившейся солнцеподобной звезды HD 181327 подтвердилось наличие смешанного с пылью водяного льда. По мнению астрономов, это скопление вещества — прямой аналог околосолнечного каменно-ледяного Пояса Койпера. Это доказывает, что другие звездные системы тоже бывают богаты водой.
Экс-спикер Минобороны Армении Арцрун Ованнисян в эфире армянского Общественного телевидения решил «развеять миф» о Второй мировой войне. В частности, он заявил, что выигрыш Сталинградской битвы был не спасением для страны. Напротив, если бы немцы победили, уверен он, была бы создана объединенная историческая Армения — куда вошли бы земли, сегодня удерживаемые Турцией. Так ли все было на самом деле?
Крис Фалкенберг (Chris Falkenberg) — концепт-дизайнер и цифровой иллюстратор из США, чьи работы создают эффект погружения в далёкие миры, высокотехнологичные цивилизации и воображаемые космические сценарии. Его художественный стиль сочетает точность технического рендеринга с кинематографичной атмосферой.
Экс-спикер Минобороны Армении Арцрун Ованнисян в эфире армянского Общественного телевидения решил «развеять миф» о Второй мировой войне. В частности, он заявил, что выигрыш Сталинградской битвы был не спасением для страны. Напротив, если бы немцы победили, уверен он, была бы создана объединенная историческая Армения — куда вошли бы земли, сегодня удерживаемые Турцией. Так ли все было на самом деле?
Споры вокруг выделения антропоцена в самостоятельную геологическую эпоху не утихли после официального отказа Международного союза геологических наук, наоборот, разожглись сильнее. Шведские геологи, придерживаясь логики союза, решили оценить легитимность других периодов кайнозойской эры и выяснили, что доказательства в пользу голоцена слабее, чем у антропоцена. Если идти дальше, то и половину ступеней кайнозоя можно откинуть.
В Бразилии проживает более 200 миллионов человек, немалую долю которых занимают потомки иммигрантов. Колонизация с XV по XX века считается самым масштабным переселением народов в истории. Порядка пяти миллионов человек переселились туда из Европы. Столько же насильно переместили с Африканского континента. Сегодня бразильцы — это наиболее генетически разнородная нация, и одна из самых малоизученных. Поэтому неудивительно, что новая работа по результатам полногеномного анализа населения принесла целый ряд открытий.
Да, с волосами и люком все так. У космонавта Суниты Уильямс волосы на МКС плавали свободно, а у Кэти Пэрри и прочих в полете 14 апреля 2025 года — нет. Но это не значит, что суборбитального космического полета первого чисто женского экипажа не было или что он был инсценировкой. Причем, в общем-то, чтобы понять это, даже не нужно обладать специальными знаниями.
Мощнейшее отключение электроэнергии за последние 20 лет истории Европы случилось уже неделю назад, а испанские власти пока так и не объявили о его причинах. Это логично: как мы покажем ниже, ответ на вопрос, кто виноват, получится очень неполиткорректным. И, более того, противоречащим линии правящей в Испании партии. Но мы живем за тысячи километров от нее, поэтому можем себе позволить аполитичный анализ случившегося. Так что же произошло на самом деле и каковы наши шансы увидеть подобное у себя дома?
Инженеры компании UST Inc. разработали передовой рельсовый беспилотник, способный передвигаться на скорости до 500 километров в час. Юнибус U5-75304 предназначен для перевозки пассажиров и может в перспективе заменить среднемагистральную авиацию. Давайте узнаем, как конструктивные особенности обеспечивают продолжительное движение на больших скоростях, комфорт и безопасность пассажирам.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии