• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Рейтинг: частота «галлюцинаций» у популярных моделей ИИ

«Галлюцинацией» называют ситуации, когда большая языковая модель утверждает нечто как факт, хотя информация ложна или не имеет оснований. Причина проста: стандартные методы обучения поощряют догадки, а не признание неопределенности. Представьте экзамен с вариантами ответов: угадав, вы с большей вероятностью получите балл, чем оставив вопрос пустым. С ИИ происходит то же самое.

Рейтинг: частота «галлюцинаций» у популярных моделей ИИ / © Visual Capitalist
Рейтинг: частота «галлюцинаций» у популярных моделей ИИ / © Visual Capitalist

Инфографика выше, основанная на последнем исследовании от Terzo, демонстрирует, как часто различные модели ИИ выдают ошибки.

Чтобы оценить склонность к «галлюцинациям», исследователи предложили моделям от ведущих компаний фрагменты новостных текстов. Задача была одна — определить оригинальную статью, издание и URL.

Эксперимент поставили таким образом, что обычный поиск Google по этим фрагментам возвращал исходный материал в числе первых трех результатов. Затем ответы моделей проверяли на точность.

Согласно данным тестов Grok-3 показал худший результат — «галлюцинировал» в 94% случаев. Perplexity, напротив, продемонстрировал наибольшую точность.

Любопытно, что платные версии моделей справились хуже, чем их бесплатные аналоги. И почти все модели не выражали сомнений, даже когда ошибались.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

4 Комментария
say
4 дня назад
-
1
+
Дизайн исследования как у пятиклассников) задала всем моделям вопрос: выявлен патогенный вариант (миссенс-мутация) гетерозиготном состоянии в гене ANO5. К какому заболеванию это может привести? В данном случае модель должна сопоставить много фактов: в целом возможны 3 заболевания: ПКМД, миопатия Миоши и гнатодиафизарная дисплазия. Но первые два наследуются аутосомно-рецессивно и LLN модель должна сообразить, что при гетерозиготной мутации заболевание не разовьется, а вот для дисплазии как раз характерна миссенс мутация. Это сложная медицинская задачка, с которой процентов 95% врачей не справятся. Проверяем LLN: DeepSeek - наполовину, написал, что будет носителем ПМД и Миоши, но про дисплазию и не вспомнил GigaChat - накосячил Perplexity - верный ответ Qwen 3 max - информацию нашел верную, вывод не сделал Gpt4 - совсем слабо, даже заболевания не назвал Gemini - слабо, не назвал заболевания, все в общих чертах. Итого: единственный верный ответ дал Perplexity С более простым заданием (рассчитай доход по вкладу с ежемесячной капитализацией в России, если на вкладе 3 млн рублей под 16% за 233 дня) справились все, но только две модели размышляли и сообразили, дали два варианта: простой расчет и вычет налога на вклад (-13% от суммы, превышающей 210 000 дохода, она привязана к ключевой ставке), это DeepSeek и Perplexity
Ilya Pronyashin
5 дней назад
-
1
+
Что принимается за ошибку. Ничего не понятно, но очень интересно. Perplexity - агрегатор, какая именно из его моделей использовалась? Sonet? Она самая слабая из всех, работает как поисковик, поэтому свойственных ИИ ошибок мало. Имхо.Статья шлак
Иван Колупаев
5 дней назад
-
1
+
ну дык
Кино Киноев
5 дней назад
-
1
+
познавательно
1 декабря, 13:33
КАИ

В Передовой инженерной школе КНИТУ-КАИ (ПИШ КАИ) действуют временные научные коллективы (ВНК), работающие над реальными инженерными задачами. Одним из наиболее ярких результатов стала работа ВНК-4, созданного для развития технологий в области легких авиационных систем. Проект реализуется под руководством Никиты Сёмина, который также возглавляет специальное образовательное пространство (СОП) ПИШ КАИ «Авиамоделирование».

3 декабря, 09:56
Александр Березин

Человеческие эмбрионы до восьми недель способны полностью восстанавливать повреждения, как аксолотли. Но потом организм выключает гены, которые позволяют это делать — и наука пока не знает почему. Но она уже пытается вернуть такую возможность взрослым. И хотя масштаб задачи огромен, кое-чего ученым из России уже удалось добиться. Причем это не только имплантаты, но и биофабрикация живых тканей на замену утраченным.

2 декабря, 17:10
Игорь Байдов

На холмах Западной Турции расположены сотни памятников бронзового века. На протяжении десятилетий их связывали с разрозненными поселениями, которые существовали независимо друг от друга. Однако археологи собрали доказательства, указывающие на то, что эти поселения могли быть частью ранее неизвестной цивилизации, которая представляла собой мощную политическую силу, державшую в напряжении Восточное Средиземноморье почти 3200 лет назад.

29 ноября, 12:42
Александр Березин

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

27 ноября, 20:20
Максим Абдулаев

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

27 ноября, 11:05
Игорь Байдов

Долгое время ученые полагали, что сотни гигантских статуй на острове Пасхи создали представители местной общины под руководством одного вождя. Однако авторы нового исследования поставили эту гипотезу под сомнение. Детальная трехмерная карта главного каменного карьера острова указала на более сложную картину. Вероятно, монументы были плодом творчества и соперничества небольших независимых групп.

29 ноября, 12:42
Александр Березин

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

27 ноября, 20:20
Максим Абдулаев

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

20 ноября, 13:12
Полина Меньшова

Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно