05.12.2023, 11:19

Игорь Байдов

3,3 тыс

Пародийный чат-бот из 1960-х годов превзошел GPT-3.5 в тесте Тьюринга

❋ 3.6

Чат-бот «Элиза», написанный в 1966 году, в разговоре с людьми смог лучше убедить их в том, что является человеком, чем чат-бот GPT-3.5, который создали в 2022-м. Авторы нового исследования отметили, что тест Тьюринга, который многие специалисты считают золотым стандартом оценки способностей искусственного интеллекта, может быть неточным.

Технологии

# GPT-3

# GPT-4

# большие языковые модели

# искусственный интеллект

# нейросети

# тест Тьюринга

# чат-боты

Разговор человека и робота в представлении художника / © Getty Images, Benj Edwards / Автор: Lampronia Auxilius

Британский математик и криптограф Алан Тьюринг некогда задался вопросом, может ли машина мыслить и вести себя в разговоре с людьми как человек. Рассуждения на эту тему привели его в 1950 году к созданию известного теста. Сегодня его используют для того, чтобы определить умение чат-ботов притворяться человеком.

Выглядит этот тест следующим образом. Пользователь через специальную программу общается с одним компьютером и одним человеком. При этом он не знает, кто есть кто. На основании ответов на вопросы необходимо определить, с кем разговаривает испытуемый: с человеком или чат-ботом. Задача машины — ввести в заблуждение, заставить сделать неправильный выбор.

Если на протяжении определенного времени «подопытный» не может отличить программу от человека, считается, что машина успешно завершила тест. Однако многие специалисты называют этот тест субъективным, ведь до сих пор нет единого мнения о том, что необходимо считать показателем успешной его сдачи.

Еще больше неурядиц в этот вопрос внесли исследователи из Калифорнийского университета в Сан-Диего (США). Они создали специальный сайт, с помощью которого провели онлайн-тест Тьюринга. Задачей было узнать, какой из «собеседников» лучше других выдаст себя за человека: модели искусственного интеллекта GPT-4, GPT-3.5, «Элиза» (ELIZA) или группа людей. Результаты работы опубликованы на сайте электронного архива препринтов arXiv.

Всего в эксперименте участвовали 652 человека. Через сайт во время более чем тысячи сессий они взаимодействовали с тремя моделями искусственного интеллекта (GPT-4, GPT-3.5, «Элиза») или другими людьми. После чего испытуемые должны были сообщить, с кем общались: человеком или чат-ботом.

Исследование показало, что людей «по ту сторону экрана» участники эксперимента правильно определили в 63 процентах случаев, а в 37 процентах посчитали их ботами. Модели GPT-4 и GPT-3.5 убеждали испытуемых, что те общаются с человеком в 41 и 14 процентах случаев соответственно. Больше всего ученых удивил «старичок» — чат-бот «Элиза», созданный в 1966 году американским ученым Джозефом Вейценбаумом (Joseph Weizenbaum) для пародирования общения психоаналитика с клиентами. Показатель успешности этой языковой модели составил 27 процентов, то есть гораздо выше, чем у «молодой» GPT-3.5, чего никак не рассчитывали увидеть ученые.

Успех «Элизы» авторы статьи объяснили тремя причинами:

1. Ответы этого чат-бота, как правило, были консервативны, что создавало впечатления «несговорчивого собеседника». Такое «поведение» позволило не разоблачить систему. «Элиза» сводила к минимуму выдачу неверной информации;

2. «Элиза» не показывала тех качеств, с которыми пользователи привыкли ассоциировать современные языковые модели, такие как услужливость, дружелюбие и многословие;

3. «Испытуемые» сообщили, что чат-бот «слишком плох, чтобы походить на модель искусственного интеллекта», поэтому, скорее всего, с ним общался человек.

Во время сеансов участники эксперимента вели светские беседы с «собеседниками», интересовались их знаниями и мнениями об актуальных событиях. Кроме того, общались на иностранном языке и довольно часто обвиняли в том, что они модель искусственного интеллекта, то есть «давили на психику».

тест Тьюринга — Гистограмма успешности выполнения теста Тьюринга, проведенного американскими учеными / © Cameron Jones

Испытуемые принимали решения о том, общался с ними человек или чат-бот, в первую очередь на основе манеры общения и эмоциональных черт «собеседника», а не только на восприятии их уровня интеллекта. Также пользователи отмечали, когда ответы на их вопросы были слишком формальными или неформальными, когда ответам не хватало индивидуальности или они казались обобщенными.

Авторы признали некоторые недостатки своего исследования. В частности, слишком малую выборку и отсутствие стимулов для участников, что, возможно, повлияло на их ответы — вероятно, они не были искренними.

Также ученые отметили, что результаты их работы в какой-то степени показали несостоятельность теста Тьюринга, особенно если брать в расчет производительность «Элизы». То есть этот тест может быть неточным в оценке способностей искусственного интеллекта. Модель «Элиза» гипотетически должна была справиться хуже с заданием, чем GPT-3.5. Исследователи подчеркнули: их выводы не означают, что от теста нужно срочно отказываться. Он по-прежнему актуален и вполне жизнеспособен.

Что касается GPT-3.5 — это базовая модель, бесплатная версия ChatGPT. Команда OpenAI специально разрабатывала ее для того, чтобы та не выдавала себя за человека. Это может хотя бы частично объяснить ее низкую результативность в эксперименте.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Автор публикует материалы по астрономии, археологии и палеонтологии. В текстах освещает современные открытия, теории и ключевые находки, представляя актуальные данные в научно-популярном формате.

Технологии

# GPT-3

# GPT-4

# большие языковые модели

# искусственный интеллект

# нейросети

# тест Тьюринга

# чат-боты

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Пернатые истории Шпицбергена

Библиотека имени Ю.А. Гагарина

Москва

Лекция

06 Дек

Бесплатно

Экранопланы Ростислава Алексеева

Космонавтика и авиация

Москва

Лекция

06 Дек

500 ₽

Динозавры неба. Эпоха гигантских дирижаблей в фотографиях

Центр «Архэ»

Онлайн

Лекция

07 Дек

Бесплатно

Как сохранить здоровье в межпланетном космическом полете

Космонавтика и авиация

Москва

Лекция

07 Дек

Бесплатно

Женский мозг, мужской мозг: думаем ли мы по-разному

ВДНХ

Москва

Экскурсия

07 Дек

Бесплатно

В гости к крылатым машинам

Космонавтика и авиация

Москва

Зануда

Санкт-Петербург

Лекция

08 Дек

Бесплатно

Путешествие в прошлое Китая: тайны истории и загадки иероглифов

Библиотека иностранной литературы

Москва

Лекция

09 Дек

900 ₽

Рукокрылые и насекомоядные: темные крылья и тихие труженики

Центр «Архэ»

Москва

Популярное

За сутки

За неделю

За месяц

5 декабря, 12:58

Илья Гриднев

Детектор ATLAS впервые зафиксировал распад бозона Хиггса на пару мюон — антимюон

Исследователи проанализировали огромный массив данных столкновений элементарных частиц и впервые выявили статистически значимые свидетельства распада бозона Хиггса на мюон и антимюон. Это подтвердило, что фундаментальный механизм наделения массой работает не только для тяжелой материи, но и для более легких частиц.

Физика

# БАК

# бозон Хиггса

# мюоны

5 декабря, 11:32

Максим Абдулаев

Тетрациклин заставил кишечные бактерии вырабатывать вещества для манипуляций иммунитетом

Химики обнаружили, что популярные антибиотики тетрациклинового ряда меняют метаболизм обычной кишечной бактерии Bacteroides dorei. Под воздействием низких доз лекарства микроб начинает синтезировать скрытые ранее вещества, которые провоцируют воспаление и заставляют организм хозяина уничтожать конкурентов этой бактерии.

Медицина

# антибиотики

# иммунная система

# кишечная микробиота

4 декабря, 08:16

Адель Романова

Зонд-перехватчик предложили отправить на охоту за новым межзвездным объектом

Европейское космическое агентство сейчас строит зонд для перехвата кометы из самых дальних окраин Солнечной системы. Ученые предложили использовать его как прототип для создания такого же аппарата, предназначенного для «ловли» объектов из межзвездного пространства.

Астрономия

# ESA

# космос

# межзвездная комета

# межзвездные объекты

3 декабря, 11:53

Максим Абдулаев

В Австралии нашли тайник с 60 каменными теслами, спрятанный 200 лет назад

Австралийские археологи обнаружили редкий клад каменных орудий на западе штата Квинсленд. В яме на берегу пересыхающего водоема лежали 60 совершенно новых тесел, изготовленных в XIX веке. Ученые установили, что это был «торговый пакет», подготовленный для обмена в экономической сети аборигенов. Владелец не смог забрать ценный груз, вероятно, из-за конфликта с европейскими поселенцами.

Археология

# Австралия

# голоцен

# каменные орудия

1 декабря, 13:33

КАИ

Инженеры создали аэродинамическую схему беспилотника без сложных механических узлов

В Передовой инженерной школе КНИТУ-КАИ (ПИШ КАИ) действуют временные научные коллективы (ВНК), работающие над реальными инженерными задачами. Одним из наиболее ярких результатов стала работа ВНК-4, созданного для развития технологий в области легких авиационных систем. Проект реализуется под руководством Никиты Сёмина, который также возглавляет специальное образовательное пространство (СОП) ПИШ КАИ «Авиамоделирование».

КАИ

# беспилотники

# БПЛА

# дроны

# прототип

# система управления

# технологии

3 декабря, 09:56

Александр Березин

Отрастить неотращиваемое: как ученые из России хотят научить человеческий организм регенерировать подобно аксолотлю

Человеческие эмбрионы до восьми недель способны полностью восстанавливать повреждения, как аксолотли. Но потом организм выключает гены, которые позволяют это делать — и наука пока не знает почему. Но она уже пытается вернуть такую возможность взрослым. И хотя масштаб задачи огромен, кое-чего ученым из России уже удалось добиться. Причем это не только имплантаты, но и биофабрикация живых тканей на замену утраченным.

С точки зрения науки

# биология

# здоровье

# имплантаты

# медицина

# росатом

# Россия

# технологии

Выбор редакции

29 ноября, 12:42

Александр Березин

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

Космонавтика

# «Союз МС»

# Байконур

# корабль Союз

# космодром «Восточный»

# космодром Байконур

# космос

# Роскосмос

# Россия

Выбор редакции

27 ноября, 20:20

Максим Абдулаев

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

Археология

# алкоголь

# античность

# вино

# виноделие

# дрожжи

# история

# микробиология

20 ноября, 13:12

Полина Меньшова

Анализ 2430 языков показал сходства и различия их правил грамматики

Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.

Психология

# грамматика

# лингвистика

# морфология

# синтаксис

# языки

[miniorange_social_login]

Пародийный чат-бот из 1960-х годов превзошел GPT-3.5 в тесте Тьюринга

По теме

Пентагон использовал чат-боты для управления боевыми действиями в StarCraft II

Тяга ИИ к гонке вооружений и ядерным ударам сделала его опасным помощником в военно-политических вопросах

«Языковой ИИ» GPT-4 выйдет на следующей неделе с поддержкой изображений и видео

Популярное

Комментарии

Последние новости:

Эксперимент в Ботсване показал, что пчелы не эффективны против слонов

Нехватка сардин привела к сокращению на 95% популяции пингвинов на островах у берегов ЮАР

Физики разработали новый подход расчета обменных взаимодействий в магнитных материалах

Гидравлическая мощь: как работает тяговая машина комплекса uST

Какой ядерный реактор строить: тест ваших предпочтений

Отрастить неотращиваемое: как ученые из России хотят научить человеческий организм регенерировать подобно аксолотлю

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Атомный квиз — разгоните нейтроны знаний!

Последние комментарии

Самые обсуждаемые

В Институте космических исследований РАН предложили отказаться от полетов на Марс

Отрастить неотращиваемое: как ученые из России хотят научить человеческий организм регенерировать подобно аксолотлю

Инженеры создали аэродинамическую схему беспилотника без сложных механических узлов

Нейросети пишут чересчур официально. Новая разработка «Яндекса» показывает, где именно