01.08.2023, 11:19

Василий Парфенов

GPT-3 выполнил тест на мышление аналогиями лучше студентов колледжа

❋ 4.5

Американские психологи проверили способность большой языковой модели GPT-3 решать незнакомые для нее задачи методом аналогии. Это классический подход к определению интеллектуального развития людей, и нейросетевой алгоритм показал себя с неожиданной стороны. Он дал больше правильных ответов в адаптированном тесте стандартными прогрессивными матрицами Рейвена, чем студенты старших курсов колледжа.

Технологии

# GPT-3

# ИИ

# искусственный интеллект

# логическое мышление

# нейросети

# США

Кадр из фильма «Из машины» (Ex machina, 2014) / ©A24, Universal Pictures International / Автор: Pinaria Caprarius

Заставлять нейросети делать что-нибудь, для чего они изначально не предназначались — интересное развлечение, с которым после открытия доступа к языковым моделям вроде ChatGPT познакомился едва ли не каждый пользователь интернета. Однако подобные действия могут иметь и вполне научное обоснование. Тестируя генеративный искусственный интеллект на грани его возможностей, ученые ищут способы познания человеческого разума.

Пожалуй, самое впечатляющее в алгоритмах семейства GPT-3 — их способность решать те или иные новые задачи с минимум примеров (Zero-shot). Главное — описать проблему текстом.

Такая механика мышления — изучить один-два образца, провести аналогию с новой, совсем незнакомой, но похожей ситуацией и найти из нее выход — называется аналоговым, или аналогичным, рассуждением (analogical reasoning). Имеется в виду «рассуждение» как часть мышления, а не вербализация. И считается, что это уникальная особенность людей. Может быть, еще и некоторых наиболее интеллектуально развитых видов животных.

Исследователи из Калифорнийского университета в Лос-Анджелесе (UCLA) задались вопросом, действительно ли GPT-3 может рассуждать по аналогии. Для этого они выбрали задачи, с которыми модель точно не встречалась во время обучения.

Ученые адаптировали для работающего с текстом искусственного интеллекта проверенные временем карточки теста стандартными прогрессивными матрицами Рейвена.

GPT-3 прошел тест на интеллект — Пример задачи, построенной по принципу стандартных прогрессивных матриц Рейвена / © arXiv:2206.14187

Это серии изображений из девяти элементов, сгруппированных по три, с пропущенной девятой ячейкой. Испытуемому предлагается выбрать из нескольких вариантов ответа правильный. Фигуры имеют несколько свойств, которые в каждом ряду изменяются по набору правил. Чтобы ответить верно, нужно, глядя на первые два ряда, определить правила и, проведя аналогию, применить их к третьему ряду. На словах непросто, но визуально воспринимается легко (смотрите иллюстрацию). С каждым следующим заданием сложность возрастает.

Поскольку GPT-3 не мультимодальная модель, то есть умеет работать только с текстом, матрицы адаптировали, но принцип остался тот же. В качестве контрольной группы выступали учащиеся колледжа UCLA. И они проиграли искусственному интеллекту.

Студенты дали чуть менее 60 процентов правильных ответов (нормальный уровень), GPT-3 — 80 процентов (больше среднего для людей, но в рамках нормы). Как отметили авторы исследования, алгоритм совершал те же ошибки, что и человек. Иными словами, высока вероятность, что процесс принятия решений был очень похожим.

В дополнение к матрицам Рейвена исследователи дали алгоритму задачи из стандартизированного теста для приема в высшие учебные заведения США (SAT). Большая часть его вариантов никогда не публиковалась в открытом доступе, так что GPT-3, скорее всего, с ними тоже не знаком.

Модель показала высокие результаты (наравне или лучше контрольной группы людей) в заданиях вида «„любовь“ для „ненависти“ — то же, что „богатство“ для этого слова, какого?» (правильный ответ — «бедности»). Таким образом, алгоритм должен был понять, что от него требуется найти в этом случае антоним, без прямого указания на то.

Ожидаемо GPT-3 хорошо решил и более трудные вопросы, в которых аналогии нужно было провести между целыми предложениями или абзацами. А вот где модель предсказуемо села в лужу, так это в задачах на пространственное мышление.

Даже если подробно описать проблему вроде «чем лучше переложить жевательные конфеты из одной миски в другую — трубкой, ножницами или лентой», алгоритм предлагал бессмысленные тексты в ответ.

Проведенное американскими психологами исследование на новом уровне поднимает вопрос: имитируют ли большие языковые модели ряд аспектов человеческого мышления, либо перед нами совершенно новый тип мышления? Во втором случае сама собой напрашивается аналогия со знаменитым философским концептом «призрака в машине». По одной из его интерпретаций, достаточно сложноустроенная искусственная система (машина) может обретать новые непредвиденные свойства, которые со стороны будут неотличимы от человеческого сознания.

У научной работы есть два существенных ограничения, на которые ее авторы справедливо указывают. В первую очередь, несмотря на старания исследователей, нет никаких гарантий, что GPT-3 во время обучения сталкивался с задачами, похожими на вышеописанные. Наименее вероятно, что модель тренировали на текстовых представлениях прогрессивных матриц Рейвена. Наиболее — что какие-то варианты SAT могли встречаться в наборе данных для обучения.

Из этого вытекает вторая проблема: ученые не обладают доступом к «внутренностям» модели, из-за чего процессы ее «мышления» представляют собой черный ящик. А это сдерживает нейронауки в развитии.

Научная статья с подробным описанием исследования опубликована в журнале Nature Human Behaviour. Ее препринт (неотрецензированная версия) размещен в открытом доступе на портале arXiv.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

mostly harmless Есть телега: https://t.me/tempest_exults

Технологии

# GPT-3

# ИИ

# искусственный интеллект

# логическое мышление

# нейросети

# США

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Органическая химия азота для медицины и освоения космоса

Космонавтика и авиация

Москва

Лекция

13 Июл

Бесплатно

Насколько огромна Вселенная?

Космонавтика и авиация

Москва

Лекция

13 Июл

Бесплатно

Культура и быт советской эпохи: 1970–1980-е годы — Застой и перестройка

ВДНХ

Москва

Лекция

13 Июл

Бесплатно

Что было до трилобитов: как появились членистоногие

Библиотека им. Маяковского

Санкт-Петербург

Лекция

13 Июл

1200 ₽

Как молекула стала живой

Medio Modo

Санкт-Петербург

Лекция

14 Июл

Бесплатно

Проблематики: кто ты, древний незнакомец?

Центр «Архэ»

Онлайн

Лекция

15 Июл

Бесплатно

Мы зря выделяли суффиксы

Библиотека им. Н. А. Некрасова

Москва

Экскурсия

15 Июл

500 ₽

«Союз» — «Аполлон» — рукопожатие в космосе

Политехнический музей

Москва

Лекция

15 Июл

Бесплатно

Хрустальные ночи Арктики: судьбы ледоколов и свет звезд

Библиотека Планетарий 1

Санкт-Петербург

Популярное

За сутки

За неделю

За месяц

11 июля, 17:47

Денис Яковлев

Ученые определили оптимальную длительность физической активности, которая продлевает жизнь на треть

Международная команда ученых оценила связь между длительностью физической активности, ее интенсивностью, риском смерти от всех причин и вероятностью развития сердечно-сосудистых и онкологических заболеваний.

Медицина

# ЗОЖ

# онкологические заболевания

# сердечно-сосудистые болезни

# смертность

# спорт

12 июля, 09:23

Александр Березин

Гусеницы восковой моли превратили полиэтилен в жир и пострадали от этого

Исследователи разобрались с тем, что происходит в организме пластикоядных гусениц при поедании и переваривании самого распространенного пластика. Оказалось, что для их здоровья это не проходит бесследно, но, похоже, есть способ помочь и гусеницам, и осуществляемому ими процессу разрушения искусственных полимеров.

Биология

# биология

# гусеницы

# пластик

10 июля, 13:16

ФизТех

Скрутить в кольцо и сломать позвоночник: ученые узнали, как крестьяне наказывали конокрадов в царской России

Кража лошадей была серьезной проблемой для крестьянских хозяйств в Российской империи. Особенности этого явления, включающие жестокие уголовные наказания, крестьянский самосуд и межэтнические конфликты, выявили в ходе исследования юридических источников историки из МФТИ и РЭУ имени Г.В. Плеханова.

ФизТех

# воровство

# крестьяне

# лошади

# Россия

8 июля, 09:23

Полина Меньшова

Люди с высоким уровнем интеллекта оказались менее нравственными

Принято считать, что люди с развитыми когнитивными способностями отличаются высокими моральными принципами. Ученые из Великобритании решили проверить этот тезис научными методами и пришли к противоположному выводу.

Психология

# интеллект

# мораль

# нравственность

# показатель IQ

9 июля, 08:26

Полина Меньшова

Предпочтения в спорте связали с типом личности

Подобрать тип физической активности, который лучше всего подходит человеку, можно исходя из особенностей его характера. Психологи из Великобритании определили, что люди с разными чертами личности получают больше удовольствия от разных видов спорта.

Психология

# спорт

# тип личности

# фитнес

# характер

# черты личности

9 июля, 12:05

Редакция Naked Science

За месяц «ВКонтакте» покинули больше миллиона авторов

В июне 2025 года ВК покинули 1,2 миллиона авторов контента. Это резкое ускорение их бегства в сравнении с предшествующими месяцами. Одновременно число авторов на других платформах растет, в результате по этому показателю соцсеть обогнал не только Telegram, но и запрещенный Instagram*. Причиной происходящего многие наблюдатели посчитали совокупность решений менеджмента компании за последние годы.

Медиа

# «ВКонтакте»

# медиа

# соцсети

17 июня, 16:49

Адель Романова

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

Астрономия

# космический мусор

# космос

# радиосигналы

# спутники

25 июня, 15:19

ФизТех

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

ФизТех

# «Суперджет»

# самолет

# сверхзвуковой

# суперкомпьютеры

# Шум

2 июля, 11:17

Юлия Тарасова

Коров покормили отходами конопли и проверили их молоко на психоактивность

Результаты эксперимента в США в будущем могут позволить добиться разрешения на использование отработанной конопли в качестве кормовой добавки в животноводстве.

Биология

# животноводство

# конопля

# корм

# коровы

# молоко

# ТГК

# тетрагидроканнабинол

[miniorange_social_login]

Я однозначно проиграю ей. В разгадыаании кубиков, кружёчков, треугольников, да хоть в ЕГЭ и подобном всём. Но если победитель окажется со мной в природе. Дикой. Разные встречи могут произойти. Дикая природа, животные, люди!!! Если произойдёт какой либо катаклизм,... Не факт, что этот персонаж выживет. И я смогу его спасти.

Ответить

Виталий Лялин

02.08.2023

Ответить

GPT-3 выполнил тест на мышление аналогиями лучше студентов колледжа

По теме

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

В ТюмГУ научились лучше управлять «умными электросетями»

Пентагон проверил способность ИИ предсказывать оперативную обстановку на дни вперед

Популярное

Комментарии

Последние новости:

Музыкальное образование улучшило качество жизни

У женщин с ПМС риск аритмии и инсульта оказался почти на треть выше

Гусеницы восковой моли превратили полиэтилен в жир и пострадали от этого

Ученые определили оптимальную длительность физической активности, которая продлевает жизнь на треть

Полет фантазии: заменит ли орбитальное базирование боеголовок современные МБР?

«Отвратительная тайна эволюции»: что стало известно о самом древнем цветке

Иран и Израиль — дойдет ли дело до ядерного оружия?

Трамп и Маск разругались: сорвет ли это высадку на Луну и как отразится на России?

Последние комментарии

Самые обсуждаемые

За месяц «ВКонтакте» покинули больше миллиона авторов

Люди с высоким уровнем интеллекта оказались менее нравственными

«Возродившая лютоволка» компания решила воскресить птицу моа

В продажу поступила первая настольная игра от Naked Science — «От моря до моря»