11.01.2024, 11:00

НИУ ВШЭ

В НИУ ВШЭ научили нейросети распознавать юмор по-человечески

❋ 4.5

Группа ученых факультета компьютерных наук НИУ ВШЭ провела исследование способности нейросетей распознавать юмор. Выяснилось, что для более надежного распознавания следует изменить подход к созданию наборов данных, на которых обучаются нейросети.

НИУ ВШЭ

# ChatGPT

# Диккенс

# нейросети

# шутки

# юмор

В НИУ ВШЭ научили нейросети распознавать юмор по-человечески / © Getty images / Автор: Visellia Orfius

Доклад на основе исследования был представлен на одной из важнейших мировых конференций по теме обработки естественного языка — EMNLP 2023. Текст статьи доступен по ссылке.

Сегодня голосовые помощники могут только рассказать готовый анекдот, придумать же свой или распознать шутливый тон они не в состоянии. При этом пользователи голосовых помощников, созданных на основе технологии искусственного интеллекта, хотят от них большей человечности — способности распознать шутку и пошутить.

С середины 2000-х годов ученые занимаются распознаванием юмора как задачей классификации «смешно — не смешно», в этой же рамке собираются и размечаются датасеты (набор данных). Группа ученых из ВШЭ предложила изменить подходы к формированию таких датасетов — сделать их более разнообразными, причем наборы данных не обязательно должны быть очень большими.

Задача распознавания юмора сложна еще и потому, что отсутствуют формальные критерии для определения того, что смешно, а что нет. Сейчас большинство датасетов для обучения и оценки моделей распознавания юмора содержат каламбуры (puns). Сарказм и ирония еще более сложны, как и ситуативный юмор, требующий знания контекста или культурного кода.

«Мы хотели оценить переносимость и устойчивость моделей, обученных на разных датасетах. Переносимость — это то, насколько обученная на датасете с одним типом юмора модель хорошо определяет другой тип юмора. Было совсем не очевидно, как будет работать обучение, потому что юмор бывает разным», — рассказывает доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский.

Устойчивость же ученые проверяли «состязательными атаками» — попытками заставить нейросеть увидеть юмор там, где его нет. Нейросеть получала несмешной, но формально похожий на юмористический текст — вместо каламбура в диалоге использовалось «неправильное» созвучное слово. Чем меньше сеть попадается в такие ловушки, тем она более устойчива.

Исследователи обучали модели на стандартных датасетах для распознавания юмора и на их смесях. Кроме того, модели проходили проверку диалогами из «Алисы в Стране чудес» Льюиса Кэрролла, «Лавки древностей» Чарльза Диккенса, «Троих в лодке, не считая собаки» Джерома К. Джерома, сериалов «Ходячие мертвецы», «Друзья» и коллекцией ироничных твитов.

Оказалось, что некоторые модели переобучаются и считают все смешным. «Мы показали разным моделям “Лавку древностей” Диккенса, а это очень грустная история, и попросили оценить происходящее. Выяснилось, что некоторые модели считают, что все диалоги из литературы XIX века смешные. И даже больше — все, что слишком непохоже на новости XXI века, принимается как юмор», — комментирует аспирант факультета компьютерных наук НИУ ВШЭ Александр Баранов.

Модели, натренированные на каламбурах, чаще ошибаются, если в несмешном тексте одно слово заменено на созвучное. Также выяснилось, что нейросети, натренированные на небольших частях разных датасетов, распознают юмор лучше, чем обученные на большом объеме однотипных данных. Авторы делают вывод, что существующие датасеты слишком узкие, юмор в каждом из них сильно ограничен, и это снижает качество распознавания шуток.

Исследователи предложили изменить подход к обучению и оценке моделей распознавания юмора. Нужны новые датасеты, более разнообразные и близкие к обычным разговорам, естественному общению. Большие языковые модели, например ChatGPT, обученные на огромных массивах данных разных типов, в среднем хорошо справляются с распознаванием юмора, и ученые предполагают, что дело именно в разнообразии данных, на которых они учились.

«Мы сейчас говорим только о бинарном распознавании юмора: смешно или не смешно. До определения оттенков юмора, различения сарказма и иронии, распознавания ситуативного, контекстуального юмора очень далеко. У наших голосовых помощников шутки пока “гвоздями приколочены” и обложены фильтрами, определяющими, какую шутку выдать в зависимости от слов пользователя. Такая запрограммированность ответов ощущается как неестественная. Запрос на большую человечность искусственного интеллекта абсолютно понятен, но удовлетворить его будет непросто», — говорит один из авторов исследования Владимир Княжевский, студент факультета компьютерных наук НИУ ВШЭ.

Исследование выполнено в рамках проекта Научно-учебной лаборатории моделей и методов вычислительной прагматики. Доклад на конференции в Сингапуре представлял аспирант факультета компьютерных наук НИУ ВШЭ Александр Баранов, его участие было профинансировано НИУ ВШЭ.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».

НИУ ВШЭ

# ChatGPT

# Диккенс

# нейросети

# шутки

# юмор

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Пленники холода: ледяные мумии

Medio Modo

Москва

Экскурсия

15 Авг

Бесплатно

Археологические тайны: что хранит в себе земля

Центр славянской письменности «Слово»

Москва

Лекция

16 Авг

Бесплатно

Генетические бродяги: мобильные элементы в ДНК

Экспериментаниум

Москва

Лекция

16 Авг

Бесплатно

Экологичная архитектура

Библиотека им. Ф.М. Достоевского

Москва

Лекция

17 Авг

600 ₽

Как выбрать лучший оффер и не уйти в монастырь

Центр «Архэ»

Онлайн

Экскурсия

17 Авг

Бесплатно

Тайны небесных светил

Космонавтика и авиация

Москва

Лекция

17 Авг

700 ₽

Личная система самообмана

Зануда

Санкт-Петербург

Лекция

18 Авг

600 ₽

Как батониться по гари, чтобы не засилили

Центр «Архэ»

Онлайн

Библиотека им. Н. А. Некрасова

Москва

Популярное

За сутки

За неделю

За месяц

14 августа, 08:27

Полина Меньшова

Историк технологий объяснил, почему бесполезно спрашивать нейросети об их ошибках

Когда модели искусственного интеллекта ошибаются и выдают неверный ответ на запрос, пользователи пытаются выяснить причину этой ошибки, задавая вопрос самому ИИ-помощнику. Историк технологий Бендж Эдвардс объяснил, почему делать так нет смысла и как это связано с устройством нейросетей.

Технологии

# ChatGPT

# OpenAI

# искусственный интеллект

# нейросети

14 августа, 08:50

Юлия Трепалина

В Австралии обнаружили генетического самца кукабарры, способного откладывать яйца

Ученые знают о возможности реверсии, или изменения, одного пола на другой у рыб, земноводных и рептилий. Но задокументированных случаев подобного у диких птиц и млекопитающих мало. Исследователи недавно обнаружили, что в Австралии смена пола у пернатых может быть не таким редким явлением.

Биология

# Австралия

# дикие птицы

# половые различия

# самки

# самцы

# смена пола

13 августа, 11:35

РНФ

Ученые нашли способ, который поможет безопасно утилизировать радиоактивный цезий

Ученые впервые показали, как при нагревании меняется кристаллическая структура слоистых титаносиликатов — минералов куплетскита и цезийкуплетскита. Оказалось, что под действием температуры в кислородной среде марганец, содержащийся в минералах, теряет электроны, а также из минералов «уходит» вода. В результате кристаллы куплетскита и цезийкуплетскита сжимаются. Полученные данные расширяют представления о физических свойствах титаносиликатов, содержащих цезий, и потенциально позволят использовать эти минералы для захоронения радиоактивного цезия.

РНФ

# кремний

# магний

# минералы

# радиация

# радиоактивное загрязнение

# цезий

12 августа, 11:29

Юлия Трепалина

Психологи узнали, в каких парах любовь сильнее — у нашедших друг друга онлайн или в жизни

Влияет ли формат знакомства на качество последующих романтических отношений в паре? Научные данные на этот счет разнятся. Новое исследование по вопросу представила группа психологов из Польши, Австралии и Великобритании. В попытке понять, при каком сценарии удовлетворенность отношениями выше, а любовь крепче — когда двое нашли друг друга в Сети или познакомились в жизни, — ученые опросили свыше 6000 тысяч человек из разных стран.

Психология

# знакомство

# интернет

# любовь

# онлайн-знакомство

# романтические отношения

# удовлетворенность отношениями

9 августа, 15:19

Любовь С.

Астрофизик придумал, как добраться до черной дыры за 70 лет

Чтобы проверить законы физики в условиях, недоступных на Земле, астрофизик Козимо Бамби (Cosimo Bambi) из Фуданьского университета (Китай) предложил отправить к центру ближайшей черной дыры «нанокрафт» — крошечный зонд, способный добраться до цели примерно за 60-75 лет благодаря наземной лазерной установке.

Астрономия

# астрофизик

# горизонт событий

# лазер

# Общая Теория Относительности Эйнштейна

# Скорость света

# Черные дыры

14 августа, 08:27

Полина Меньшова

Историк технологий объяснил, почему бесполезно спрашивать нейросети об их ошибках

Технологии

# ChatGPT

# OpenAI

# искусственный интеллект

# нейросети

25 июля, 07:47

Адель Романова

У третьего межзвездного объекта нашли признаки управляемого корабля

Прибывшая из межзвездного пространства предполагаемая комета 3I/ATLAS движется по траектории, максимально удобной для гравитационных маневров управляемого корабля, при этом возможность ее отслеживания с Земли практически минимальна. По мнению некоторых ученых, такое «поведение» объекта наводит на определенные мысли.

Астрономия

# внеземные цивилизации

# космос

# межзвездная комета

# межзвездные зонды

# межзвездные объекты

6 августа, 20:59

Татьяна Пичугина

Ученые добыли новые доказательства столкновения с кометой 12 800 лет назад

Примерно 12 800 лет назад в Северном полушарии началось резкое изменение климата, которое сопровождалось вымиранием мегафауны и угасанием культуры Кловис. Такое могло произойти, например, из-за прорыва пресных вод в Атлантику или мощного вулканического извержения. Несколько лет назад ученые обнаружили места на суше с повышенным содержанием элементов платиновой группы, прослоями угля, микрочастицами расплава. По их мнению, это может быть признаком пребывания Земли в потоке обломков кометы или астероида. В новой работе впервые представлены доказательства кометного события в позднем дриасе из морских осадочных толщ.

Геология

# Атлантический океан

# комета

# морское дно

# платина

# событие позднего дриаса

22 июля, 14:44

ФизТех

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет. Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста.

ФизТех

# ChatGPT

# нейросети

# ошибки

# слова

# текст

[miniorange_social_login]

В НИУ ВШЭ научили нейросети распознавать юмор по-человечески

По теме

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

Присутствие юмора в воспитании улучшило отношение к родителям

Популярное

Историк технологий объяснил, почему бесполезно спрашивать нейросети об их ошибках

В Австралии обнаружили генетического самца кукабарры, способного откладывать яйца

Ученые нашли способ, который поможет безопасно утилизировать радиоактивный цезий

Психологи узнали, в каких парах любовь сильнее — у нашедших друг друга онлайн или в жизни

Астрофизик придумал, как добраться до черной дыры за 70 лет

Историк технологий объяснил, почему бесполезно спрашивать нейросети об их ошибках

У третьего межзвездного объекта нашли признаки управляемого корабля

Ученые добыли новые доказательства столкновения с кометой 12 800 лет назад

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Как устроена атомная подлодка

5 напитков, которые вы не пробовали

Что такое «парадокс убитого дедушки» и как его решить

Утечка RAND с точки зрения истории: США устроили войну на Украине ради истощения Европы?

С точки зрения науки: помогают ли маски от вируса?

План «Гертруда»: возродил бы Гитлер Великую Армению, если бы выиграл Сталинградскую битву?

Введение в Теорию всего: просто – о главной цели современной физики

Дрон-рейсинг: лицо спорта будущего

В НИУ ВШЭ научили нейросети распознавать юмор по-человечески

По теме

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

Присутствие юмора в воспитании улучшило отношение к родителям

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Хотите
вести колонку
в нашем
издании?