Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Исследователи выяснили, как нейросети понимают каламбуры
Международная команда с участием исследователей ФКН НИУ ВШЭ представила KoWit-24 — корпус из 2700 заголовков одного из русскоязычных СМИ с игрой слов. Корпус позволил оценить, как искусственный интеллект распознает и объясняет языковую игру. Эксперименты с пятью большими языковыми моделями подтвердили: даже передовые системы пока ошибаются, причем интерпретация игры слов является для них более сложной задачей, чем ее выявление.
Результаты работы были представлены на конференции RANLP, cтатья доступна в репозитории Arxiv.org, датасет и код для воспроизведения экспериментов — в GitHub.
Игра слов — это прием, когда автор специально ломает норму языка ради эффекта: чтобы привлечь внимание, усилить иронию или вызвать улыбку. В российских новостных заголовках такие приемы встречаются часто и могут выглядеть по-разному. Например, «Особо бумажные персоны» обыгрывает фразу «особо важные персоны»: «важные» рифмуются с «бумажные», и смысл сдвигается к производству бумаги. Или «Код накликал» звучит почти так же, как идиома «кот наплакал» (очень мало), что создает шутливую двусмысленность.
Для читателя такая игра слов очевидна и заголовки не нуждаются в пояснении. Однако современные большие языковые модели, например ChatGPT или GigaChat Max, часто теряются: им трудно заметить каламбур и тем более объяснить, на чем построена шутка. Одна из причин — это ограниченность наборов данных, на которых обучаются языковые модели. Чаще всего юмор в них представлен короткими шутками из интернета, которые помечены ярлыком «шутка». Этого мало, чтобы алгоритм понял, почему это смешно. Кроме того, у таких наборов почти нет разметки — понятных машине и человеку слоев описания, которые могут показывать, есть ли там игра слов или нет, какой это тип приема, к чему отсылает заголовок и т.д.
Исследователи факультета компьютерных наук НИУ ВШЭ вместе с коллегами из Австрийского университета междисциплинарных трансформаций, а также независимыми исследователями создали набор данных KoWit-24. Он содержит 2700 заголовков за январь 2021 года — декабрь 2023-го с контекстом: к каждому заголовку приложены подводка к статье, название рубрики и краткое описание сюжета. Для примеров с игрой слов авторы вручную отметили тип приема, выделили «якоря» — ключевые слова, где происходит смысловой сдвиг, указали исходные выражения и добавили ссылки на статьи в «Википедии» там, где это возможно.
Авторы работы использовали определение лингвиста Алана Скотта Партингтона: игра слов возникает, когда одна и та же фраза читается минимум двумя способами, и этот эффект не случаен. При этом игра слов может возникать в нескольких случаях. Первый, когда двусмысленность заложена в самом слове или в его звучании. Например, заголовок «“Волгу” не могут заставить течь быстрее»: «Волга» здесь и река, и название федеральной трассы. Второй — легкая переделка известной фразы или названия: автор меняет форму, а читатель узнает исходник и достраивает шутку. Например, «Миссия сократима» отсылает к фильму «Миссия невыполнима» и одновременно намекает, что дипломатическую миссию можно сократить.
Исследователи отдельно выделили окказионализмы (разовые неологизмы под задачу) и оксюмороны (сочетание противоположных смыслов). Все это позволило не только собрать и описать примеры, но и сравнить разные языковые модели между собой.
После разметки авторы проверили корпус на пяти больших языковых моделях: GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Моделям давали заголовок и подводку к новости и просили решить две задачи: сначала определить, есть ли в заголовке игра слов, а затем объяснить ее, то есть назвать исходную фразу или отсылку. При этом исследователи сравнивали два режима подсказок: короткий вопрос «Есть ли игра слов?» и расширенную инструкцию, в которой объясняется, что считать игрой слов, и приводятся примеры разных типов. Трем моделям из пяти более подробные инструкции помогали в распознавании игры слов, а лучшую точность показала GPT-4o. При этом интерпретировать источник шутки всем моделям заметно сложнее, чем просто фиксировать, что игра слов есть.
«KoWit-24 закрывает две ключевые проблемы прежних наборов — дает контекст к каждому заголовку и многоуровневую разметку. Это превращает подборку примеров в полноценный «тестовый стенд» для ИИ. Теперь можно объективно сравнивать модели между собой: видит ли модель сам факт игры слов, находит ли «якорь», правильно ли восстанавливает исходную фразу или отсылку. Такие проверяемые метрики помогают не только точнее оценивать текущие системы, но и целенаправленно их улучшать — подбирать формулировки подсказок, обучающие примеры и стратегии проверки фактов. В будущем мы хотим исследовать, можно ли с помощью этого набора улучшить генерацию шуток», — отмечает один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский.
Кроме того, корпус задает общий понятный стандарт оценки: исследователи работают с одними и теми же данными и сценариями экспериментов. Это уменьшает «шум» в результатах и помогает создавать модели, которые лучше понимают живой язык, а не просто следят за логикой текста.
После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.
В 16.18 по московскому времени 28 декабря 2025 года с единственного гражданского космодрома на территории России произошел 17-й по счету космический запуск этого года. Перед ним на космодроме побывал корреспондент нашего издания, и вскоре мы выпустим репортаж о том, чем живет самый холодный космодром в мире.
Палеонтологи описали крупнейшее в мире скопление следов динозавров: более 16 000 вмятин на площади 7500 квадратных метров. Ученые считают, что эта территория была не просто местом случайных прогулок, а оживленной трассой, где динозавры организованно мигрировали вдоль берега древнего озера.
Биологи опровергли представление о примитивности органов чувств у древнейших бесчелюстных, обнаружив у миксин огромный арсенал рецепторов для поиска добычи. Исследователи доказали, что способность различать сложные запахи и аминокислоты появилась у общего предка позвоночных задолго до возникновения челюстей.
После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.
В 16.18 по московскому времени 28 декабря 2025 года с единственного гражданского космодрома на территории России произошел 17-й по счету космический запуск этого года. Перед ним на космодроме побывал корреспондент нашего издания, и вскоре мы выпустим репортаж о том, чем живет самый холодный космодром в мире.
С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.
На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.
Среди самых интригующих открытий космического телескопа «Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
