• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Рейтинг: частота «галлюцинаций» у популярных моделей ИИ

«Галлюцинацией» называют ситуации, когда большая языковая модель утверждает нечто как факт, хотя информация ложна или не имеет оснований. Причина проста: стандартные методы обучения поощряют догадки, а не признание неопределенности. Представьте экзамен с вариантами ответов: угадав, вы с большей вероятностью получите балл, чем оставив вопрос пустым. С ИИ происходит то же самое.

Рейтинг: частота «галлюцинаций» у популярных моделей ИИ / © Visual Capitalist
Рейтинг: частота «галлюцинаций» у популярных моделей ИИ / © Visual Capitalist

Инфографика выше, основанная на последнем исследовании от Terzo, демонстрирует, как часто различные модели ИИ выдают ошибки.

Чтобы оценить склонность к «галлюцинациям», исследователи предложили моделям от ведущих компаний фрагменты новостных текстов. Задача была одна — определить оригинальную статью, издание и URL.

Эксперимент поставили таким образом, что обычный поиск Google по этим фрагментам возвращал исходный материал в числе первых трех результатов. Затем ответы моделей проверяли на точность.

Согласно данным тестов Grok-3 показал худший результат — «галлюцинировал» в 94% случаев. Perplexity, напротив, продемонстрировал наибольшую точность.

Любопытно, что платные версии моделей справились хуже, чем их бесплатные аналоги. И почти все модели не выражали сомнений, даже когда ошибались.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

4 Комментария
say
29.11.2025
-
1
+
Дизайн исследования как у пятиклассников) задала всем моделям вопрос: выявлен патогенный вариант (миссенс-мутация) гетерозиготном состоянии в гене ANO5. К какому заболеванию это может привести? В данном случае модель должна сопоставить много фактов: в целом возможны 3 заболевания: ПКМД, миопатия Миоши и гнатодиафизарная дисплазия. Но первые два наследуются аутосомно-рецессивно и LLN модель должна сообразить, что при гетерозиготной мутации заболевание не разовьется, а вот для дисплазии как раз характерна миссенс мутация. Это сложная медицинская задачка, с которой процентов 95% врачей не справятся. Проверяем LLN: DeepSeek - наполовину, написал, что будет носителем ПМД и Миоши, но про дисплазию и не вспомнил GigaChat - накосячил Perplexity - верный ответ Qwen 3 max - информацию нашел верную, вывод не сделал Gpt4 - совсем слабо, даже заболевания не назвал Gemini - слабо, не назвал заболевания, все в общих чертах. Итого: единственный верный ответ дал Perplexity С более простым заданием (рассчитай доход по вкладу с ежемесячной капитализацией в России, если на вкладе 3 млн рублей под 16% за 233 дня) справились все, но только две модели размышляли и сообразили, дали два варианта: простой расчет и вычет налога на вклад (-13% от суммы, превышающей 210 000 дохода, она привязана к ключевой ставке), это DeepSeek и Perplexity
-
1
+
Что принимается за ошибку. Ничего не понятно, но очень интересно. Perplexity - агрегатор, какая именно из его моделей использовалась? Sonet? Она самая слабая из всех, работает как поисковик, поэтому свойственных ИИ ошибок мало. Имхо.Статья шлак
-
1
+
познавательно
Предстоящие мероприятия
1 июня, 08:40
Любовь С.

Около четырех миллиардов лет назад Солнечная система пребывала в хаосе: гигантские планеты сближались, меняли орбиты и выбрасывали своих соседей в межзвездное пространство. Хотя шансы на «выживание» лун Юпитера и Урана в этот период были крайне малы, астрономы показали, что их судьба может хранить следы древней катастрофы с участием «потерянной» планеты.

1 июня, 10:35
Лена

Количество заболеваний, передаваемых клещами, ежегодно растет во всем мире. Эти паразиты переносят опасные вирусы и бактерии, поражающие людей и животных. Современные методы борьбы с клещевыми инфекциями основаны на предотвращении укусов или сокращении популяции клещей. Теперь ученые предложили способ заблокировать биологический механизм передачи вируса во время укуса.

31 мая, 11:48
Игорь Байдов

Исследователи опросили более 60 тысяч испытуемых из разных стран и выяснили: чем больше человек зациклен на себе, тем холоднее он к своему партнеру. Правда, снижение накала страстей не всегда плохо, у этого есть и положительные стороны.

27 мая, 17:06
Александр Березин

Вначале Reuters опубликовал статью о взаимоотношениях SpaceX и Пентагона, которую миллиардер --- традиционно для его отношений с этим изданием — назвал фейком. Опровергая ее тезисы, он обнародовал информацию, не представленную ранее публично.

31 мая, 11:48
Игорь Байдов

Исследователи опросили более 60 тысяч испытуемых из разных стран и выяснили: чем больше человек зациклен на себе, тем холоднее он к своему партнеру. Правда, снижение накала страстей не всегда плохо, у этого есть и положительные стороны.

27 мая, 09:59
НИУ ВШЭ

Сотрудники Центра языка и мозга НИУ ВШЭ приняли участие в редкой для детской нейрохирургии операции с пробуждением у 11-летнего пациента с фармакорезистентной эпилепсией. Совместно с врачами НПЦ специализированной медицинской помощи детям имени В.Ф. Войно-Ясенецкого в Солнцево они сопровождали удаление участка левой височной доли, где был выявлен эпилептический очаг.

17 мая, 10:35
Игорь Байдов

В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.

25 мая, 14:00
Андрей Серегин

В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.

17 мая, 10:00
Evgenia Vavilova

При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Авторизуясь, вы даете согласие на обработку персональных данных и подтверждаете ознакомление с Политикой.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно