• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Рейтинг: частота «галлюцинаций» у популярных моделей ИИ

«Галлюцинацией» называют ситуации, когда большая языковая модель утверждает нечто как факт, хотя информация ложна или не имеет оснований. Причина проста: стандартные методы обучения поощряют догадки, а не признание неопределенности. Представьте экзамен с вариантами ответов: угадав, вы с большей вероятностью получите балл, чем оставив вопрос пустым. С ИИ происходит то же самое.

Рейтинг: частота «галлюцинаций» у популярных моделей ИИ / © Visual Capitalist
Рейтинг: частота «галлюцинаций» у популярных моделей ИИ / © Visual Capitalist

Инфографика выше, основанная на последнем исследовании от Terzo, демонстрирует, как часто различные модели ИИ выдают ошибки.

Чтобы оценить склонность к «галлюцинациям», исследователи предложили моделям от ведущих компаний фрагменты новостных текстов. Задача была одна — определить оригинальную статью, издание и URL.

Эксперимент поставили таким образом, что обычный поиск Google по этим фрагментам возвращал исходный материал в числе первых трех результатов. Затем ответы моделей проверяли на точность.

Согласно данным тестов Grok-3 показал худший результат — «галлюцинировал» в 94% случаев. Perplexity, напротив, продемонстрировал наибольшую точность.

Любопытно, что платные версии моделей справились хуже, чем их бесплатные аналоги. И почти все модели не выражали сомнений, даже когда ошибались.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

4 Комментария
say
29.11.2025
-
1
+
Дизайн исследования как у пятиклассников) задала всем моделям вопрос: выявлен патогенный вариант (миссенс-мутация) гетерозиготном состоянии в гене ANO5. К какому заболеванию это может привести? В данном случае модель должна сопоставить много фактов: в целом возможны 3 заболевания: ПКМД, миопатия Миоши и гнатодиафизарная дисплазия. Но первые два наследуются аутосомно-рецессивно и LLN модель должна сообразить, что при гетерозиготной мутации заболевание не разовьется, а вот для дисплазии как раз характерна миссенс мутация. Это сложная медицинская задачка, с которой процентов 95% врачей не справятся. Проверяем LLN: DeepSeek - наполовину, написал, что будет носителем ПМД и Миоши, но про дисплазию и не вспомнил GigaChat - накосячил Perplexity - верный ответ Qwen 3 max - информацию нашел верную, вывод не сделал Gpt4 - совсем слабо, даже заболевания не назвал Gemini - слабо, не назвал заболевания, все в общих чертах. Итого: единственный верный ответ дал Perplexity С более простым заданием (рассчитай доход по вкладу с ежемесячной капитализацией в России, если на вкладе 3 млн рублей под 16% за 233 дня) справились все, но только две модели размышляли и сообразили, дали два варианта: простой расчет и вычет налога на вклад (-13% от суммы, превышающей 210 000 дохода, она привязана к ключевой ставке), это DeepSeek и Perplexity
-
1
+
Что принимается за ошибку. Ничего не понятно, но очень интересно. Perplexity - агрегатор, какая именно из его моделей использовалась? Sonet? Она самая слабая из всех, работает как поисковик, поэтому свойственных ИИ ошибок мало. Имхо.Статья шлак
-
1
+
познавательно
Предстоящие мероприятия
10 января, 11:00
Игорь Байдов

На юге Африки ученые обнаружили коллекцию небольших каменных стрел. С виду — обычные артефакты древнего человека. Но современные технологии позволили выявить их смертельный секрет. Эти наконечники, которым почти 60 тысяч лет, сохранили следы яда. Авторы нового исследования пришли к выводу, что древние охотники стали использовать яды намного раньше, чем считала наука.

12 января, 14:17
Андрей Серегин

Вопрос о том, можно ли считать чрезмерное увлечение физическими упражнениями аддиктивным поведением, остается дискуссионным. Ученые из Италии и Испании выяснили, что сильнее всего к такому компульсивному поведению склонны люди с чертами перфекционизма.

12 января, 10:04
Илья Гриднев

Биологи на примере птиц определили защитную функцию рыжего пигмента феомеланина, который ранее считали бесполезным и даже опасным из-за доказанной связи с развитием меланомы. Организм использовал его синтез для нейтрализации ядовитого избытка цистеина и выводил токсичные запасы серы в перья.

10 января, 11:00
Игорь Байдов

На юге Африки ученые обнаружили коллекцию небольших каменных стрел. С виду — обычные артефакты древнего человека. Но современные технологии позволили выявить их смертельный секрет. Эти наконечники, которым почти 60 тысяч лет, сохранили следы яда. Авторы нового исследования пришли к выводу, что древние охотники стали использовать яды намного раньше, чем считала наука.

9 января, 12:04
Андрей Серегин

Ученые десятилетиями ищут кости мамонтов, которые, по данным генетиков, могли дожить на материке до бронзового века. Очередная потенциальная находка с Аляски, считавшаяся остатками мамонтов, после проверки оказалась костями китов, умерших около двух тысяч лет назад.

8 января, 22:23
Редакция Naked Science

Польша может экстрадировать на Украину российского археолога, заведующего сектором археологии Северного Причерноморья в отделе Античного мира Эрмитажа Александра Бутягина. Соответствующее ходатайство направила прокуратура в Окружной суд Варшавы.

17.12.2025, 14:19
Игорь Байдов

На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.

23.12.2025, 10:51
Игорь Байдов

Среди самых интригующих открытий космического телескопа «‎Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.

2 января, 12:27
Адель Романова

Ученые задались вопросом: почему два расположенных по соседству спутника Юпитера такие разные, ведь на Ио повсеместно извергаются вулканы, а Европа полностью покрыта многокилометровой коркой льда. Есть версия, что Ио когда-то тоже была богата водой, но по итогам недавнего исследования это сочли неправдоподобным.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно