• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
28.06.2024
Полина Меньшова
2
3 889

ChatGPT прошел пятиминутный тест Тьюринга

5.4

Люди приняли бот ChatGPT-4 за человека во время пятиминутной текстовой переписки в 54% случаев. Однако у результатов эксперимента есть ряд ограничений.

Кадр из сериала «Черное зеркало» / © netflix.com

Тест Тьюринга считается способом проверить сходство искусственного интеллекта с человеком. Его суть в том, что если во время разговора с языковой моделью люди путают ее с человеком или не могут однозначно сказать, кто их собеседник, то поведение модели приближено к человеческому. При этом сам математик Алан Тьюринг, разработавший тест в начале 1950-х, отмечал его несовершенство. Ученый говорил, что для ИИ лучший способ выдать себя за человека — не отвечать на вопросы собеседника, а уклоняться от них, отшучиваться, переспрашивать. Именно такое поведение кажется людям более естественным, хотя в подобных ситуациях явно не демонстрируются сложность и многогранность мышления, свойственные «неискусственному» интеллекту.

Тем не менее тест Тьюринга остается важным инструментом при оценке возможностей ИИ, а его успешное прохождение — одной из целей, которые ставят перед новыми языковыми моделями. Появились даже несколько его разновидностей: они различаются как задачами, которые ставятся перед моделью и экспериментаторами, так и длительностью. Согласно работе ученых из Калифорнийского университета в Сан-Диего (США), справиться с пятиминутным тестом Тьюринга удалось боту ChatGPT-4 от компании OpenAI. Препринт с результатами соответствующего эксперимента появился на сайте arxiv.org.

В исследовании участвовали 402 человека, средний возраст которых составил 35 лет. Им предлагали в течение пяти минут переписываться со случайно подобранным собеседником. Это мог быть другой человек или одна из трех языковых моделей: ELIZA (созданная в 1966 году, способная имитировать поведение психолога и давшая название «эффекту ELIZA», при котором человек присваивает программе с текстовым интерфейсом человеческие качества вроде способности думать, понимать, сопереживать. — Прим. ред.), ChatGPT-3.5, ChatGPT-4. Задачей участников эксперимента было определить, с кем они общаются, и объяснить свое решение, а задачей языковых моделей — выдать себя за людей.

Бот ChatGPT-4 обманул людей в 54% случаев, при том что результат ChatGPT-3.5 составил 50%, а ELIZA — 22%. Верно идентифицировать человека участники исследования смогли в 67% случаев.

Только в одной из четырех переписок участвовали два человека. Остальные диалоги — результат общения человека и одной из трех языковых моделей / © Cameron R. Jones et al., UC San Diego, arxiv.org
Только в одной из четырех переписок участвовали два человека. Остальные диалоги — результат общения человека и одной из трех языковых моделей / © Cameron R. Jones et al., UC San Diego, arxiv.org

Исследователи отметили, что успех ChatGPT-4 говорит о значительном прогрессе в сфере искусственного интеллекта и о возможных проблемах, которые могут возникнуть, если языковые модели станет еще сложнее отличить от людей. С одной стороны, можно будет часть работы (например, клиентский сервис) делегировать машинам, с другой — участятся ситуации дезинформации и мошенничества с помощью технологий.

Тем не менее, говорят ученые, результаты недавнего эксперимента не только иллюстрируют достаточно высокую сложность и гибкость современных языковых моделей, но и напоминают об ограничениях теста Тьюринга. Участники исследования гораздо чаще судили о «человечности» собеседника не по полноте и точности ответа, а по стилю общения, чувству юмора и другим социально-эмоциональным характеристикам, которые не всегда соответствуют традиционным представлениям об интеллекте и его функциях. Кроме того, результаты более длительного эксперимента могли бы быть другими.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Позавчера, 14:10
Редакция Naked Science

Мохаммад Х. Аттаран (Mohammad H. Attaran) — концепт-дизайнер и цифровой художник, работающий в Великобритании. В своих проектах он сочетает эстетику научной фантастики с элементами, вдохновлёнными природой, особенно анатомией насекомых. Его машины, мехи и транспортные средства выглядят одновременно инопланетно и инженерно достоверно. Ну или почти.

Вчера, 12:51
Юлия Трепалина

Реклама фастфуда и других вредных продуктов, независимо от ее формата, может способствовать избыточному потреблению калорий у детей и подростков. Это показал недавний эксперимент, результаты которого представили на проходящем в Испании Европейском конгрессе по ожирению.

Вчера, 12:00
Unitsky String Technologies Inc.

Овраги, реки, линии электропередачи — преодоление этих препятствий зачастую становится проблемой при проектировании и строительстве дорог и железнодорожных путей. Гибкие и полугибкие рельсо-струнные эстакады uST с пролетами до двух километров помогают юнимобилям проходить над наземными преградами. Но такие трассы рассчитаны на относительно невысокие скорости из-за волнообразной траектории путевой структуры. А как организовать движение рельсовых беспилотников, требующих идеальной ровности дорожного полотна в условиях сложного рельефа местности? Белорусские инженеры спроектировали уникальный транспортный тоннель с безопорными участками 100 метров.

Позавчера, 14:10
Редакция Naked Science

Мохаммад Х. Аттаран (Mohammad H. Attaran) — концепт-дизайнер и цифровой художник, работающий в Великобритании. В своих проектах он сочетает эстетику научной фантастики с элементами, вдохновлёнными природой, особенно анатомией насекомых. Его машины, мехи и транспортные средства выглядят одновременно инопланетно и инженерно достоверно. Ну или почти.

9 мая
Татьяна

Исследуя генетическое происхождение мужского населения Нидерландов, ученые заметили географические особенности распределения гаплогрупп. Теперь, чтобы их объяснить, проанализировали Y-хромосомы сотен человек, начиная с раннего Средневековья, в сравнении с геномами современного населения страны. Авторы рассчитывали обнаружить непрерывность популяций, однако столкнулись с неожиданными сложностями.

9 мая
Березин Александр

Ответ на этот важнейший вопрос десятки лет давали, исходя из политических соображений. Сначала это были «преимущества социалистического строя». Потом, когда он развалился, причиной назвали «героизм и патриотизм народа» — который, несомненно, был, как и у множества народов от начала веков, но сам по себе еще ни разу не выигрывал войны. Реальные причины советской победы все это время оставались в стороне. А прояснить их очень даже стоит: сделай мы это раньше — и многие войны после Второй мировой прошли бы куда быстрее и легче.

6 мая
Редакция Naked Science

Да, с волосами и люком все так. У космонавта Суниты Уильямс волосы на МКС плавали свободно, а у Кэти Пэрри и прочих в полете 14 апреля 2025 года — нет. Но это не значит, что суборбитального космического полета первого чисто женского экипажа не было или что он был инсценировкой. Причем, в общем-то, чтобы понять это, даже не нужно обладать специальными знаниями.

16 апреля
Андрей

Многие знают, как популярны сувениры из окаменелостей — зубы древних акул или полированные панцири аммонитов. Но чем реже встречаются такие артефакты, тем они ценнее, то есть на них можно много заработать. И это проблема для палеонтологов. Американский специалист по тираннозаврам оценил ущерб, который нанесла коммерческая добыча костей T. rex и подсчитал среднюю цену таких образцов. Оказалось, больше половины найденных тирексов находится в частных руках, а значит, для науки они недоступны или ненадежны.

6 мая
Березин Александр

Мощнейшее отключение электроэнергии за последние 20 лет истории Европы случилось уже неделю назад, а испанские власти пока так и не объявили о его причинах. Это логично: как мы покажем ниже, ответ на вопрос, кто виноват, получится очень неполиткорректным. И, более того, противоречащим линии правящей в Испании партии. Но мы живем за тысячи километров от нее, поэтому можем себе позволить аполитичный анализ случившегося. Так что же произошло на самом деле и каковы наши шансы увидеть подобное у себя дома?

[miniorange_social_login]

Комментарии

2 Комментария
В 54% случаев да еще и с ограничениями - не слишком-то впечатляюще
Задолбала эта великая новость. Уже из каждого утюга трубят о том, что бог-машина прошел тест тьюринга.
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно