05.12.2023, 11:19

Игорь Байдов

3,3 тыс

Пародийный чат-бот из 1960-х годов превзошел GPT-3.5 в тесте Тьюринга

❋ 3.6

Чат-бот «Элиза», написанный в 1966 году, в разговоре с людьми смог лучше убедить их в том, что является человеком, чем чат-бот GPT-3.5, который создали в 2022-м. Авторы нового исследования отметили, что тест Тьюринга, который многие специалисты считают золотым стандартом оценки способностей искусственного интеллекта, может быть неточным.

Технологии

# GPT-3

# GPT-4

# большие языковые модели

# искусственный интеллект

# нейросети

# тест Тьюринга

# чат-боты

Разговор человека и робота в представлении художника / © Getty Images, Benj Edwards / Автор: Lampronia Auxilius

Британский математик и криптограф Алан Тьюринг некогда задался вопросом, может ли машина мыслить и вести себя в разговоре с людьми как человек. Рассуждения на эту тему привели его в 1950 году к созданию известного теста. Сегодня его используют для того, чтобы определить умение чат-ботов притворяться человеком.

Выглядит этот тест следующим образом. Пользователь через специальную программу общается с одним компьютером и одним человеком. При этом он не знает, кто есть кто. На основании ответов на вопросы необходимо определить, с кем разговаривает испытуемый: с человеком или чат-ботом. Задача машины — ввести в заблуждение, заставить сделать неправильный выбор.

Если на протяжении определенного времени «подопытный» не может отличить программу от человека, считается, что машина успешно завершила тест. Однако многие специалисты называют этот тест субъективным, ведь до сих пор нет единого мнения о том, что необходимо считать показателем успешной его сдачи.

Еще больше неурядиц в этот вопрос внесли исследователи из Калифорнийского университета в Сан-Диего (США). Они создали специальный сайт, с помощью которого провели онлайн-тест Тьюринга. Задачей было узнать, какой из «собеседников» лучше других выдаст себя за человека: модели искусственного интеллекта GPT-4, GPT-3.5, «Элиза» (ELIZA) или группа людей. Результаты работы опубликованы на сайте электронного архива препринтов arXiv.

Всего в эксперименте участвовали 652 человека. Через сайт во время более чем тысячи сессий они взаимодействовали с тремя моделями искусственного интеллекта (GPT-4, GPT-3.5, «Элиза») или другими людьми. После чего испытуемые должны были сообщить, с кем общались: человеком или чат-ботом.

Исследование показало, что людей «по ту сторону экрана» участники эксперимента правильно определили в 63 процентах случаев, а в 37 процентах посчитали их ботами. Модели GPT-4 и GPT-3.5 убеждали испытуемых, что те общаются с человеком в 41 и 14 процентах случаев соответственно. Больше всего ученых удивил «старичок» — чат-бот «Элиза», созданный в 1966 году американским ученым Джозефом Вейценбаумом (Joseph Weizenbaum) для пародирования общения психоаналитика с клиентами. Показатель успешности этой языковой модели составил 27 процентов, то есть гораздо выше, чем у «молодой» GPT-3.5, чего никак не рассчитывали увидеть ученые.

Успех «Элизы» авторы статьи объяснили тремя причинами:

1. Ответы этого чат-бота, как правило, были консервативны, что создавало впечатления «несговорчивого собеседника». Такое «поведение» позволило не разоблачить систему. «Элиза» сводила к минимуму выдачу неверной информации;

2. «Элиза» не показывала тех качеств, с которыми пользователи привыкли ассоциировать современные языковые модели, такие как услужливость, дружелюбие и многословие;

3. «Испытуемые» сообщили, что чат-бот «слишком плох, чтобы походить на модель искусственного интеллекта», поэтому, скорее всего, с ним общался человек.

Во время сеансов участники эксперимента вели светские беседы с «собеседниками», интересовались их знаниями и мнениями об актуальных событиях. Кроме того, общались на иностранном языке и довольно часто обвиняли в том, что они модель искусственного интеллекта, то есть «давили на психику».

тест Тьюринга — Гистограмма успешности выполнения теста Тьюринга, проведенного американскими учеными / © Cameron Jones

Испытуемые принимали решения о том, общался с ними человек или чат-бот, в первую очередь на основе манеры общения и эмоциональных черт «собеседника», а не только на восприятии их уровня интеллекта. Также пользователи отмечали, когда ответы на их вопросы были слишком формальными или неформальными, когда ответам не хватало индивидуальности или они казались обобщенными.

Авторы признали некоторые недостатки своего исследования. В частности, слишком малую выборку и отсутствие стимулов для участников, что, возможно, повлияло на их ответы — вероятно, они не были искренними.

Также ученые отметили, что результаты их работы в какой-то степени показали несостоятельность теста Тьюринга, особенно если брать в расчет производительность «Элизы». То есть этот тест может быть неточным в оценке способностей искусственного интеллекта. Модель «Элиза» гипотетически должна была справиться хуже с заданием, чем GPT-3.5. Исследователи подчеркнули: их выводы не означают, что от теста нужно срочно отказываться. Он по-прежнему актуален и вполне жизнеспособен.

Что касается GPT-3.5 — это базовая модель, бесплатная версия ChatGPT. Команда OpenAI специально разрабатывала ее для того, чтобы та не выдавала себя за человека. Это может хотя бы частично объяснить ее низкую результативность в эксперименте.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Автор публикует материалы по астрономии, археологии и палеонтологии. В текстах освещает современные открытия, теории и ключевые находки, представляя актуальные данные в научно-популярном формате.

Технологии

# GPT-3

# GPT-4

# большие языковые модели

# искусственный интеллект

# нейросети

# тест Тьюринга

# чат-боты

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Как идеи превращаются в реальное изменение системы

Университет ИТМО

Онлайн

Лекция

24 Июн

Бесплатно

Как русские цари себе жен выбирали

Библиотека роста и карьеры

Санкт-Петербург

Лекция

24 Июн

Бесплатно

Все пилотируемые полеты с рекордным удалением от Земли

Москва

Миры, которые мы не видим: история поиска экзопланет

Московский Планетарий

Москва

Лекция

25 Июн

Бесплатно

От канарейки в доме до ястреба в аэропорту

Московский зоопарк

Москва

Лекция

25 Июн

Бесплатно

Как мозг обманывает. Природа ошибок мышления

Библиотека им. М.А. Светлова

Москва

Лекция

25 Июн

Бесплатно

Тише! Птицы на гнездах!

Москва

Амир Тимур и его империя

Российская государственная библиотека

Москва

Лекция

26 Июн

600 ₽

Урарту: между историей, археологией и экспериментом

Центр «Архэ»

Онлайн

Популярное

За сутки

За неделю

За месяц

21 июня, 16:10

Evgenia Vavilova

В джунглях Борнео нашли нового сверхпаразита

Паразитические организмы иногда не учитывают, что сами могут оказаться целью паразита более высокого уровня. Сосредотачивая все свои силы на инфицировании и размножении, они остаются беззащитными перед агрессивным специализированным нахлебником.

Биология

# Борнео

# грибы

# кордицепс

# муравьи

# паразитизм

# паразиты

22 июня, 11:15

Игорь Байдов

В тропосфере Урана впервые обнаружили угарный газ, что указало на богатые кислородом недра планеты

В нижних и верхних слоях Урана астрономы впервые зарегистрировали угарный газ и циановодород. Новые данные указали на то, что недра планеты могут быть значительно обогащены кислородом. Это открытие поможет разрешить давнюю загадку о том, сформировался ли Уран иначе, чем его ближайший сосед Нептун, или их образование шло по схожему сценарию.

Астрономия

# ледяные гиганты

# Нептун

# угарный газ

# уран

22 июня, 16:15

Губкинский университет

Ультразвук позволил улучшить качество нефти прямо на месторождении

Ученые РГУ нефти и газа (НИУ) имени И. М. Губкина разработали технологию изменения структуры молекул нефти с помощью энергии кавитационных полей, которые создаются при воздействии ультразвука. Технология позволяет облагораживать нефть, меняя ее физико-химические характеристики и снижая долю нежелательных составляющих веществ. Для проведения полевых испытаний ее реализовали в мобильном исполнении с применением управляемых ультразвуковых полей. Разработанное исследовательское оборудование может применяться на любом месторождении, включая удаленные и труднодоступные.

Губкинский университет

# добыча нефти

# нефтепереработка

# нефть

# технологии

# ультразвук

21 июня, 16:10

Evgenia Vavilova

В джунглях Борнео нашли нового сверхпаразита

Биология

# Борнео

# грибы

# кордицепс

# муравьи

# паразитизм

# паразиты

21 июня, 10:23

Николай Цыгикало

Невозможное возможно: как вакуумный двигатель SpaceX RaptorVAC работает при атмосферном давлении

Интригующие испытания высотного ракетного двигателя Raptor Vacuum для корабля Starship, верхней ступени сверхракеты Илона Маска, парадоксальны. Его работа на уровне моря уже сама по себе загадка. Ведь, по классическим представлениям, высотные двигатели на уровне моря корректно не работают. А сопло RaptorVAC на наземном стенде извергает реактивную струю без всяких признаков нарушения работы. Как такое может быть?

Космонавтика

# NASA

# SpaceX

# StarShip

# двигатели

# космос

# ракета

# ракетные двигатели

# США

# технологии

Выбор редакции

22 июня, 11:15

Игорь Байдов

В тропосфере Урана впервые обнаружили угарный газ, что указало на богатые кислородом недра планеты

Астрономия

# ледяные гиганты

# Нептун

# угарный газ

# уран

10 июня, 11:51

Александр Березин

Американские ученые заявили о первом в истории создании GPS-помех из космоса — русскими спутниками

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

Оружие и техника

# GPS

# космонавтика

# космос

# спутники

25 мая, 14:00

Андрей Серегин

Правящие семьи в доколумбовом Перу веками практиковали браки между родственниками

В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.

Археология

# Анды

# брак между родственниками

# инки

# раскопки

27 мая, 17:06

Александр Березин

Илон Маск обвинил военных США в использования Starlink на дронах-камикадзе

Вначале Reuters опубликовал статью о взаимоотношениях SpaceX и Пентагона, которую миллиардер --- традиционно для его отношений с этим изданием — назвал фейком. Опровергая ее тезисы, он обнародовал информацию, не представленную ранее публично.

Космонавтика

# SpaceX

# Starlink

# космос

# США

[miniorange_social_login]

Пародийный чат-бот из 1960-х годов превзошел GPT-3.5 в тесте Тьюринга

По теме

Пентагон использовал чат-боты для управления боевыми действиями в StarCraft II

Тяга ИИ к гонке вооружений и ядерным ударам сделала его опасным помощником в военно-политических вопросах

«Языковой ИИ» GPT-4 выйдет на следующей неделе с поддержкой изображений и видео

Популярное

Комментарии

Последние новости:

Сладкая жевательная резинка сделала свекольный сок еще полезнее для здоровья

Каспийское море стало меньше на одну Сицилию, но неизвестно почему

Новое исследование показало, что вейпинг — вероятная причина рака легких и полости рта

Палеонтологи обнаружили древнейший пример материнской заботы у моллюсков

Невозможное возможно: как вакуумный двигатель SpaceX RaptorVAC работает при атмосферном давлении

Жанна д’Арк: как неграмотная девушка определила будущее мира

Они прилетели из чужих миров: как Оумуамуа, комета Борисова и 3I/ATLAS изменили астрономию

Татуированные кочевники: как в России спасают редких соколов-бало́банов

Последние комментарии

Самые обсуждаемые

Главная ошибка Вашингтона: почему США не смогли победить Иран?

Большая часть даже Солнечной системы оказалась не проверена на техносигнатуры

Земля в прошлом могла «заразить» жизнью подледный океан Европы

В джунглях Борнео нашли нового сверхпаразита