19.06.2025, 13:42

ЮФУ

46,2 тыс

Ученые выяснили, почему ИИ не победит в «Что? Где? Когда?» среднестатистического россиянина

❋ 4.7

В ЮФУ придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка. Исследователи искусственного интеллекта из МИИ ИМ ЮФУ предлагают использовать интеллектуальные языковые игры, как пример — заставлять ИИ отвечать на вопросы из архива телевикторины «Что? Где? Когда?» и «Своей игры». Инициативу прокомментировал опытный игрок.

ЮФУ

# ChatGPT

# игра

# интеллект

# искусственный интеллект

# россияне

# языковые модели

Павильон «Охотничий домик» (ротонда середины XVIII века) в Нескучном саду, где проходят съемки игры «Что? Где? Когда?» / © A.Savin, ru.wikipedia.org

В наше время параллельно развиваются самые разные технологии искусственного интеллекта, но в широком употреблении под ИИ люди почти всегда подразумевают именно большие языковые модели (LLM – Large Language Model), такие как DeepSeek или ChatGPT, из-за шумихи вокруг них.

Ответственный исполнитель проекта «Фронтирная лаборатория рентгеноспектральной нанометрологии» Центра наукоемкого приборостроения ЮФУ Богдан Проценко и его коллеги, как и многие исследователи, на практике делают ставку не на языковые-модели гиганты, а на модели ИИ поменьше, обученные на заведомо более качественных данных, как в случае линейки моделей LLaMa3.

«Ее разработчики получили существенный прирост качества моделей, главным образом «почистив данные» для обучения предыдущих версий, без радикальных изменений в архитектуре нейросети. Между сложностью архитектуры ИИ и качеством данных для его обучения всякий ML-инженер и аналитик данных почти всегда выберет последнее, потому что в мире не бесконечное количество качественного контента, и лучше, если нейросеть может научиться на миллионе умных текстов, чтобы не пришлось ей скармливать миллиард глупых», — поделился Богдан Проценко.

Создатели ИИ часто исходят из позиции, что логическое мышление и способность рассуждать («ризонинг») нейросетей не страдает от того, на каком языке ИИ «подумает», главное, чтобы он умел грамотно формулировать ответ на языке пользователя. Доказать обратное нетрудно: можем спросить у большой языковой модели, например, на языке хинди, какие предметы и темы проходят десятиклассники по школьной программе. И он вам ответит на грамотном литературном хинди, но только расскажет так, как проходят в десятом классе в американских школах, а не в индийских.

«Русского, например, в данных для предтренировки всех зарубежных моделей ощутимо меньше английского, потому модель пишет и мыслит «умнее» и грамотнее, если ее спросить на английском и попросить на нем же ответить. Бенчмарки, «линейки», которыми измеряют качество моделей и их работы на разных языках – как правило, просто перевод с одного из языков, обычно английского, на другие. Такой расклад не отражает качества работы модели в реальной языковой ситуации», — объяснил Богдан Проценко.

Как же объективно оценить, какая модель ИИ действительно «умнее»? Для этого отлично подходят различного рода интеллектуальные игры: они являются весьма непростыми для LLM, и при этом за многие годы накоплен огромный и крайне качественный — отточенный поколениями игроков, а не сгенерированный ИИ — архив подобных вопросов, во многих из которых предостаточно и культурной, и тонкой языковой специфики языка.

«Мышление и языки близки. Как победы ИИ над человеком в шахматы и го были яркими ключевыми моментами развития ИИ в конце прошлого века, так «Что? Где? Когда?» и «Своя игра» — вызовы сегодняшнего дня. Способность успешно отвечать на вопросы, написанные умными телезрителями для еще более умных знатоков, появляется только в самых больших и умных LLM, причем моделям с большим количеством русского языка в предтренировочной выборке обычно проще», — подчеркнул Богдан Проценко.

В качестве примера ученые протестировали старшую модель из семейства LLaMa-3, демонстрирующую хорошее владение русским языком, но даже она ошиблась в вопросах, требующих знания специфических для русскоязычной культуры фактов. Например, вопросы о композиторе Владимире Шаинском, о Царь-пушке в Кремле, о спортивных объектах, построенных вокруг Москвы к Олимпиаде-80, тривиальные для русскоязычных людей, для LLM на 405 миллиардов параметров, владеющей десятками естественных языков и языков программирования, разбирающейся в куче вопросов, от квантовой механики до медицины, оказываются не под силу.

Необычный способ тестировать ИИ интеллектуальными играми прокомментировал научный журналист, популяризатор науки и лектор Алексей Паевский — участник «Своей игры» и автор вопросов для «Что? Где? Когда?».

«Решать вопросы «Своей игры» искусственному интеллекту определенно будет легче, поскольку они обычно направлены на эрудицию и личные знания игрока, а вот вопросы «Что? Где? Когда?» скорее на способность команды знатоков мыслить и догадываться. Для ответа на средний вопрос «ЧГК» русскому человеку обычно не нужны никакие специальные знания свыше школьной программы и общей культуры, другое дело, что зачастую вопросы «завернуты» так, что лишь единицы поймут о чем речь. Если сообщество авторов вопросов «ЧГК» узнает, что ИИ научился на их вопросы отвечать с легкостью, это их замотивирует закручивать новые вопросы так, что у ИИ не будет шансов, а для знатоков при этом сложность останется прежней», — поделился Алексей Паевский.

Четырехкратный чемпион мира по «Что? Где? Когда?» Михаил Левандовский добавил, что главная сложность игры в ее изменчивости. На заре «Что? Где? Когда?» ключом к победе было умение распознавать «явления» — абстрактные образы и социальные закономерности. Это для современных ИИ-систем по-прежнему остаются серьезным вызовом.

«Впрочем, тогда же возник и другой тип вопросов — перефразировки известных цитат, названий или сюжетов из ограниченного круга классических произведений. С ними, я уверен, искусственный интеллект справлялся бы мгновенно. Сейчас основной тренд — языковые игры: каламбуры, двойные смыслы, игра слов, сложные ментальные конструкции. Здесь ИИ демонстрирует результаты с переменным успехом. Пока что он порой ошибается, но скоро сможет соревноваться с человеком на равных», — рассказал Михаил Левандовский.

Другой глобальный результат исследователей ЮФУ заключается в том, что они протестировали несколько методов генерации ответов, включая цепочку рассуждений и подход с «внутренним критиком», который оценивает предложенные гипотезы – такая своего рода имитация команды знатоков ЧГК и того, как «раскручивают» вопросы в спортивном ЧГК. Например, модель сначала должна предложить несколько вариантов, а затем самой себе объяснить, почему каждый из них неверен, а тот вариант, на который она сможет придумать меньше критики, она и предлагает как верный.

«Такие подходы, с критикой, показывают прирост точности по сравнению с методами без «критика». Однако избыточная критика иногда подавляет креативность модели — как и у людей, — и она вообще больше не может генерировать новые гипотезы», — поделился Богдан Проценко.

Это может означать что этап инструктирования LLM, (instruction tuning), когда модели учат быть «покорными» и отвечать по существу, можно делать с учетом этой специфики, тем самым делая модели еще умнее в сценариях саморефлексии и самокритики.

«В терминологии «ЧГК» есть термин «щелчок». Ответ, который «щелкает», не только подходит под условия вопроса и под все подсказки в вопросе, но и красиво ложится на общекультурный контекст. Это не элемент озарения, это способ проверить свой ответ, со всеми ли зацепками вопроса он бьется, выдерживает ли он внутреннюю критику. Прекрасно, если можно настроить алгоритм ИИ по схожему принципу, при этом, конечно, не нужно обманываться, будто бы ИИ обладает умом, он обладает способностью подбирать решение к задачам, аналогичным той, на которой он тренировался», — прокомментировал Алексей Паевский.

По словам затока, когда автомобиль стал быстрее человека, легкая атлетика не исчезла как спорт — так и интеллектуальные игры не исчезнут, если ИИ однажды начнет играть в них лучше человека. Смысл «Что? Где? Когда?» в демонстрации возможностей командной работы, того, насколько одни шесть человек могут проявить себя лучше, чем другие шесть человек в рамках специально придуманных для этого вопросов.

ИИ глобально уступает человеку не в умении отвечать на вопросы, у которых уже есть заведомо правильный ответ, а в способности к творчеству и созидательной деятельности, к таким результатам мышления, как озарение и открытие. Но пока большие языковые модели не обучатся на русских базах данных, они будут проигрывать нам даже в викторинах.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Южный федеральный университет образован в рамках национального проекта "Образование" распоряжением Правительства Российской Федерации от 23 ноября 2006 года N1616-р (pdf) и приказом Министерства образования и науки Российской Федерации от 4 декабря 2006 года N1447 путем присоединения к Ростовскому государственному университету трех вузов: Таганрогского государственного радиотехнического университета, Ростовского государственного педагогического университета, Ростовской государственной академии архитектуры и искусств.

ЮФУ

# ChatGPT

# игра

# интеллект

# искусственный интеллект

# россияне

# языковые модели

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Как строят метро в Петербурге

Библиотека Планетарий 1

Санкт-Петербург

Лекция

29 Июл

Бесплатно

«Отцы и дети» И. Тургенева: не война поколений, а тест на гибкость

ВДНХ

Москва

Лекция

29 Июл

1000 ₽

В скольких измерениях мы живем?

ВСмысле

Санкт-Петербург

Лекция

29 Июл

2000 ₽

Что мы можем и не можем увидеть на звездном небе

Московский Планетарий

Москва

Лекция

30 Июл

Бесплатно

Превентивная медицина, биохакинг и спорт

Курилка Гутенберга

Москва

Москва

Библиотека Екатерингофская

Санкт-Петербург

Лекция

30 Июл

Бесплатно

Избыточный вес: так ли он плох, виноват ли пациент и спасут ли препараты?

Парк «Зарядье»

Москва

Лекция

30 Июл

Бесплатно

Отечественная психология развития: как мы обучаемся

Библиотека им. Н. А. Некрасова

Москва

Популярное

За сутки

За неделю

За месяц

28 июля, 13:27

Александр Березин

Эксперт назвал ключевую технологию Starship тупиковой

Бывшие сотрудники NASA констатировали, что последнее видео испытаний крупнейшего космического корабля в истории снова показало проблемы и ограничения его теплового щита. С их точки зрения, любая из существующих технологий такого типа слишком сложна для реализации замысла Илона Маска о быстрой и безремонтной многоразовости Starship.

Космонавтика

# SpaceX

# StarShip

# космонавтика

28 июля, 10:09

ПНИПУ

Российские ученые создали модель, которая прогнозирует продолжительность жизни населения с точностью 99,7%

Рост средней продолжительности жизни и старение населения формируют новые требования к системе государственного планирования. Для обоснованного распределения ресурсов в сфере здравоохранения, пенсионного обеспечения и социальной поддержки необходимы достоверные данные о возрастной структуре общества. Сегодня для этого применяют специальные математические модели, позволяющие прогнозировать изменения. Проблема в том, что их создавали еще в прошлом веке. Они не учитывают существующие демографические закономерности и улучшение качества современной жизни. Их использование часто ведет к значительным погрешностям в расчетах, что, в свою очередь, делает невозможным своевременное перераспределение бюджетных средств между ключевыми государственными структурами. Ученые Пермского Политеха предложили новую модель для прогнозирования продолжительности жизни, которая работает с точностью 99,7%. Ее можно применять для планирования в сфере здравоохранения, пенсионного обеспечения и социальной поддержки.

ПНИПУ

# демография

# моделирование

# население

# прогнозирование

# продолжительность жизни

28 июля, 07:01

Мария Азарова

Массовые расстрелы и самоубийства достигли пика в одно и то же время года

Пик массовых расстрелов и смертей в результате суицида приходится на одно и то же время года. К такому выводу пришли медики, проанализировав данные о тысячах подобных трагедий в США за восемь лет.

Психология

# преступления

# расстрелы

# самоубийства

# скулшутинг

# суицид

# суицидальное поведение

24 июля, 11:13

Игорь Байдов

Звуки помогли повысить урожайность

Правильно подобранные звуковые последовательности способны не только стимулировать рост растений, но и влиять на их урожайность. К такому выводу пришли авторы нового исследования. Они разработали технологию, которая позволяет воздействовать на процессы развития растений через акустические сигналы без использования генной инженерии или химикатов. В экспериментах добились повышения урожайности мяты, сои, болгарского перца и конопли.

Биология

# ботаника

# звуки

# каннабис

# конопля

# растения

# урожайность

28 июля, 13:27

Александр Березин

Эксперт назвал ключевую технологию Starship тупиковой

Космонавтика

# SpaceX

# StarShip

# космонавтика

28 июля, 10:09

ПНИПУ

Российские ученые создали модель, которая прогнозирует продолжительность жизни населения с точностью 99,7%

ПНИПУ

# демография

# моделирование

# население

# прогнозирование

# продолжительность жизни

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Видеосервисы стали неотъемлемой частью жизни россиян. В 2026 году охваты большинства платформ продолжают расти, в том числе YouTube.

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

1 июля, 11:54

Марк Чернов

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Древнеримские инженеры проложили колоссальную сеть дорог через Европу, Северную Африку и Ближний Восток, многие участки которой до сих пор поражают безупречной прямолинейностью. Секрет строительства заключался в использовании трех особых геодезических инструментов, с помощью которых разбивали местность на ровные отрезки и размечали трассы.

История

# Древний Рим

# инженерия

# инструменты

# история

# Римская империя

19 июля, 20:09

Александр Березин

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Очереди на заправках стали привычным явлением в России, а на фоне информационного вакуума от властей о конкретных показателях производства бензина в июне население вынуждено ориентироваться на слухи. Все это выглядит довольно странно, но есть нюанс: скорее всего, кризис уже начинает выдыхаться. Как именно мы это выяснили?

С точки зрения науки

# бензин

# нпз

# Россия

# экономика

Выбор редакции

[miniorange_social_login]

Проводил лично тестирование модели o3 на вопросах ЧГК и Своей игры, она справилась не хуже лучших игроков в моëм тесте. Даже против целой команды знатоков порой показывала конкурентный результат, не превзошла, конечно, целую команду, но очень близкий результат показала одна. Это же легко проверить, игры и вопросы гуглятся, ответы команд известны. Предвосхищаю возражения, что это всё было в обучающей выборке, но иногда она отвечала неправильно, и зачастую её ответ нравился больше, чем правильный. К тому же всегда можно провести тестирование на свежеидущем выпуске, в таком случае исключаем возможность гугления/вспоминания ответа

Ответить

владимир шмелев

21.06.2025

А еще в духовности ИИ никогда не сравнится с русским человеком!

Ответить

Александр Петров

20.06.2025

Херня рекламная, попытка раскрутки неизвестного бота, замаскированное под интересную тему. Шлак!

Ответить

Dron N

19.06.2025

Тест не самый лучший, так как достаточно подсунуть все эти вопросы и ответы в обучающую выборку и тест бесполезен. Правда, у большинства остальных тестов та же проблема. "Если сообщество авторов вопросов «ЧГК» узнает, что ИИ научился на их вопросы отвечать с легкостью, это их замотивирует закручивать новые вопросы так, что у ИИ не будет шансов, а для знатоков при этом сложность останется прежней". Сомнительный вывод про "не будет шансов" и "прежнюю сложность для знатоков". Да, у нейросетей пока есть ряд задач, преимущественно связанных с визуализацией, взаимным расположением объектов, в которых она ещё плохо ориентируется. Всё-таки, ей на вход всё поступает в виде текста и у неё там внутри нет пространственного воображения в человеческом смысле. Но может и появиться, есть наработки в этом направлении, когда модель генерирует себе картинки сразу пока размышляет. Также нейросеть легко запутать задачами с подковырками, где идёт много лишней информации и она может путаться в каких-то очевидных для людей вещей, например, что на экране ноутбука, расположенном в километре от смотрящего, невозможно ничего прочитать невооружённым взглядом. Эту деталь она может опустить и сделать ложные выводы. Человек же создаст ситуацию в голове и сразу увидит несуразность. Но и тут есть продвижения. В тесте Simple Bench собраны такие задачи и топовые модели уже там выдают около 60 % (человек - 83.7 % в среднем, ясно что есть и 100 %-ные результаты). Кстати, упомянутая в исследовании Llama 3, на которую якобы делают ставку специалисты, в этом тесте показала всего лишь 23 %. Зачем на неё делают тогда ставку - непонятно. Ну, open source, ладно. В общем эти все вопросы на эрудированность будут легко решаться с ростом модели, а вот с рассуждениями нужны другие подходы.

Ответить

владимир шмелев

21.06.2025

А еще в духовности ИИ никогда не сравнится с русским человеком!

Ответить

Александр Петров

20.06.2025

Херня рекламная, попытка раскрутки неизвестного бота, замаскированное под интересную тему. Шлак!

Ответить

Сергей Гумановский

23.06.2025

Ответить

Dron N

19.06.2025

Ответить

Ученые выяснили, почему ИИ не победит в «Что? Где? Когда?» среднестатистического россиянина

По теме

Израильские ученые проверили нейросети на скрытый антисемитизм

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

Удивительное сходство между игрой твистер и работой мозга

Популярное

Эксперт назвал ключевую технологию Starship тупиковой

Российские ученые создали модель, которая прогнозирует продолжительность жизни населения с точностью 99,7%

Массовые расстрелы и самоубийства достигли пика в одно и то же время года

Звуки помогли повысить урожайность

Эксперт назвал ключевую технологию Starship тупиковой

Российские ученые создали модель, которая прогнозирует продолжительность жизни населения с точностью 99,7%

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

У-2 вернулся: как будет защищаться Россия, когда Украина скопирует иранские «Герани»

С точки зрения психологии: почему произошел Брекзит?

5 историй: Полеты животных в космос

Российская и многоразовая: каким будет отечественный Falcon

Пляжи исчезают, но пляжи растут: что связывает глобальное потепление и ГРУ

10 уникальных персон с феноменальной памятью

Марс – это вам не Луна. Почему так сложно отправить человека на Красную планету?

Сахарный пузырь: психология панических покупок

Ученые выяснили, почему ИИ не победит в «Что? Где? Когда?» среднестатистического россиянина

По теме

Израильские ученые проверили нейросети на скрытый антисемитизм

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

Удивительное сходство между игрой твистер и работой мозга

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?