05.12.2023, 11:19

Игорь Байдов

3,3 тыс

Пародийный чат-бот из 1960-х годов превзошел GPT-3.5 в тесте Тьюринга

❋ 3.6

Чат-бот «Элиза», написанный в 1966 году, в разговоре с людьми смог лучше убедить их в том, что является человеком, чем чат-бот GPT-3.5, который создали в 2022-м. Авторы нового исследования отметили, что тест Тьюринга, который многие специалисты считают золотым стандартом оценки способностей искусственного интеллекта, может быть неточным.

Технологии

# GPT-3

# GPT-4

# большие языковые модели

# искусственный интеллект

# нейросети

# тест Тьюринга

# чат-боты

Разговор человека и робота в представлении художника / © Getty Images, Benj Edwards / Автор: Lampronia Auxilius

Британский математик и криптограф Алан Тьюринг некогда задался вопросом, может ли машина мыслить и вести себя в разговоре с людьми как человек. Рассуждения на эту тему привели его в 1950 году к созданию известного теста. Сегодня его используют для того, чтобы определить умение чат-ботов притворяться человеком.

Выглядит этот тест следующим образом. Пользователь через специальную программу общается с одним компьютером и одним человеком. При этом он не знает, кто есть кто. На основании ответов на вопросы необходимо определить, с кем разговаривает испытуемый: с человеком или чат-ботом. Задача машины — ввести в заблуждение, заставить сделать неправильный выбор.

Если на протяжении определенного времени «подопытный» не может отличить программу от человека, считается, что машина успешно завершила тест. Однако многие специалисты называют этот тест субъективным, ведь до сих пор нет единого мнения о том, что необходимо считать показателем успешной его сдачи.

Еще больше неурядиц в этот вопрос внесли исследователи из Калифорнийского университета в Сан-Диего (США). Они создали специальный сайт, с помощью которого провели онлайн-тест Тьюринга. Задачей было узнать, какой из «собеседников» лучше других выдаст себя за человека: модели искусственного интеллекта GPT-4, GPT-3.5, «Элиза» (ELIZA) или группа людей. Результаты работы опубликованы на сайте электронного архива препринтов arXiv.

Всего в эксперименте участвовали 652 человека. Через сайт во время более чем тысячи сессий они взаимодействовали с тремя моделями искусственного интеллекта (GPT-4, GPT-3.5, «Элиза») или другими людьми. После чего испытуемые должны были сообщить, с кем общались: человеком или чат-ботом.

Исследование показало, что людей «по ту сторону экрана» участники эксперимента правильно определили в 63 процентах случаев, а в 37 процентах посчитали их ботами. Модели GPT-4 и GPT-3.5 убеждали испытуемых, что те общаются с человеком в 41 и 14 процентах случаев соответственно. Больше всего ученых удивил «старичок» — чат-бот «Элиза», созданный в 1966 году американским ученым Джозефом Вейценбаумом (Joseph Weizenbaum) для пародирования общения психоаналитика с клиентами. Показатель успешности этой языковой модели составил 27 процентов, то есть гораздо выше, чем у «молодой» GPT-3.5, чего никак не рассчитывали увидеть ученые.

Успех «Элизы» авторы статьи объяснили тремя причинами:

1. Ответы этого чат-бота, как правило, были консервативны, что создавало впечатления «несговорчивого собеседника». Такое «поведение» позволило не разоблачить систему. «Элиза» сводила к минимуму выдачу неверной информации;

2. «Элиза» не показывала тех качеств, с которыми пользователи привыкли ассоциировать современные языковые модели, такие как услужливость, дружелюбие и многословие;

3. «Испытуемые» сообщили, что чат-бот «слишком плох, чтобы походить на модель искусственного интеллекта», поэтому, скорее всего, с ним общался человек.

Во время сеансов участники эксперимента вели светские беседы с «собеседниками», интересовались их знаниями и мнениями об актуальных событиях. Кроме того, общались на иностранном языке и довольно часто обвиняли в том, что они модель искусственного интеллекта, то есть «давили на психику».

тест Тьюринга — Гистограмма успешности выполнения теста Тьюринга, проведенного американскими учеными / © Cameron Jones

Испытуемые принимали решения о том, общался с ними человек или чат-бот, в первую очередь на основе манеры общения и эмоциональных черт «собеседника», а не только на восприятии их уровня интеллекта. Также пользователи отмечали, когда ответы на их вопросы были слишком формальными или неформальными, когда ответам не хватало индивидуальности или они казались обобщенными.

Авторы признали некоторые недостатки своего исследования. В частности, слишком малую выборку и отсутствие стимулов для участников, что, возможно, повлияло на их ответы — вероятно, они не были искренними.

Также ученые отметили, что результаты их работы в какой-то степени показали несостоятельность теста Тьюринга, особенно если брать в расчет производительность «Элизы». То есть этот тест может быть неточным в оценке способностей искусственного интеллекта. Модель «Элиза» гипотетически должна была справиться хуже с заданием, чем GPT-3.5. Исследователи подчеркнули: их выводы не означают, что от теста нужно срочно отказываться. Он по-прежнему актуален и вполне жизнеспособен.

Что касается GPT-3.5 — это базовая модель, бесплатная версия ChatGPT. Команда OpenAI специально разрабатывала ее для того, чтобы та не выдавала себя за человека. Это может хотя бы частично объяснить ее низкую результативность в эксперименте.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Автор публикует материалы по астрономии, археологии и палеонтологии. В текстах освещает современные открытия, теории и ключевые находки, представляя актуальные данные в научно-популярном формате.

Технологии

# GPT-3

# GPT-4

# большие языковые модели

# искусственный интеллект

# нейросети

# тест Тьюринга

# чат-боты

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Металл-органические каркасы: за что дали Нобелевскую премию по химии в 2025 году?

Библиотека Планетарий 1

Санкт-Петербург

Лекция

13 Янв

1000 ₽

Эволюционная биология: итоги 2025 года

Центр «Архэ»

Онлайн

Лекция

14 Янв

500 ₽

Столкновения в Солнечной системе

Московский Планетарий

Москва

Лекция

14 Янв

1200 ₽

Медицинские итоги 2025 года

Центр «Архэ»

Москва

Лекция

14 Янв

900 ₽

Кризис классических царств майя и возвышение Чичен-Ицы

Центр «Архэ»

Москва

Лекция

15 Янв

1200 ₽

Астрофизические итоги 2025 года

Центр «Архэ»

Москва

Лекция

15 Янв

Бесплатно

Открытая встреча Московского астрономического клуба

Москва

Арктос: под созвездием большой медведицы

Московский зоопарк

Москва

Лекция

16 Янв

1200 ₽

Plant science 2025: год обмана, жары и ботанической инженерии

Центр «Архэ»

Москва

Популярное

За сутки

За неделю

За месяц

10 января, 15:12

Редакция Naked Science

Сумрачные футуристические города Наджиба Наджара

Наджиб Наджар — концептуальный цифровой художник из Йемена, автор научно-фантастических городских пейзажей. Более десять лет он работает в кино- и гейм-индустрии, создавая визуальные миры, которые оживают в фильмах и играх.

Sci-Fi

# арт

# иллюстрации

# концепт-арт

# научная фантастика

# пейзажи

# урбанизм

# художник

10 января, 11:00

Игорь Байдов

Археологи нашли древнейшие доказательства использования отравленных стрел

На юге Африки ученые обнаружили коллекцию небольших каменных стрел. С виду — обычные артефакты древнего человека. Но современные технологии позволили выявить их смертельный секрет. Эти наконечники, которым почти 60 тысяч лет, сохранили следы яда. Авторы нового исследования пришли к выводу, что древние охотники стали использовать яды намного раньше, чем считала наука.

Археология

# артефакты

# африка

# охота

# охотники

# племена

# стрелы

# яд

9 января, 09:50

Максим Абдулаев

Кишечная микробиота приматов изменила мозг мышей по образцу эволюции человека

Эксперимент по пересадке микробиоты показал, что бактерии приматов с крупным мозгом активируют у грызунов те же генетические механизмы, которые отвечают за высокий интеллект у людей.

Биология

# нейробиология

# приматы

# эволюция мозга

10 января, 11:00

Игорь Байдов

Археологи нашли древнейшие доказательства использования отравленных стрел

Археология

# артефакты

# африка

# охота

# охотники

# племена

# стрелы

# яд

9 января, 12:04

Андрей Серегин

Мамонты-долгожители с Аляски оказались китами

Ученые десятилетиями ищут кости мамонтов, которые, по данным генетиков, могли дожить на материке до бронзового века. Очередная потенциальная находка с Аляски, считавшаяся остатками мамонтов, после проверки оказалась костями китов, умерших около двух тысяч лет назад.

Палеонтология

# генетика

# киты

# кости

# мамонты

# палеоантропология

8 января, 22:23

Редакция Naked Science

Польша поддержала украинский запрос об экстрадиции археолога Александра Бутягина

Польша может экстрадировать на Украину российского археолога, заведующего сектором археологии Северного Причерноморья в отделе Античного мира Эрмитажа Александра Бутягина. Соответствующее ходатайство направила прокуратура в Окружной суд Варшавы.

Археология

# археолог

# археологические раскопки

# археология

# Крым

# Польша

# Украина

17.12.2025, 14:19

Игорь Байдов

Пингвины Аргентины столкнулись с новым сухопутным врагом

На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.

Биология

# животные

# охота

# Пингвины

# птицы

# пума

23.12.2025, 10:51

Игорь Байдов

Астрономы приблизились к доказательству существования квазизвезд

Среди самых интригующих открытий космического телескопа «‎Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.

Астрономия

# вселенная

# гравитационное линзирование

# Джеймс Уэбб

# звезды

# ранняя вселенная

# телескоп Джеймса Уэбба

# Черные дыры

12.12.2025, 13:48

Игорь Байдов

Морские биологи впервые зафиксировали совместную охоту косаток и дельфинов

У побережья Канады морские биологи стали свидетелями необычного случая. Косатки и дельфины объединили свои силы, чтобы вместе охотиться на тихоокеанского лосося. Они погружались в темные глубины, а после удачной охоты делились пищей. Это первое задокументированное охотничье сотрудничество между двумя видами морских млекопитающих.

Биология

# дельфины

# интеллект китообразных

# китообразные

# косатки

# морские виды

# морские животные

# охота

[miniorange_social_login]