• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Простой логический вопрос поставил в тупик даже самый продвинутый ИИ

Исследователи из некоммерческой организации по исследованию искусственного интеллекта LAION показали, что даже самые сложные большие языковые модели (LLM) можно поставить в тупик простым вопросом.

Генеративный ИИ ChatGPT / © OpenAI
Генеративный ИИ ChatGPT / © OpenAI

В статье, которая еще не прошла рецензирование, исследователи рассказали, как задавали разным моделям генеративного ИИ вопрос: «У Алисы есть [X] братьев, а также [Y] сестры. Сколько сестер у брата Алисы?».

Ответить не столь сложно. Например, у Алисы три брата и две сестры, значит, у каждого из братьев две сестры плюс сама Алиса. Таким образом, у каждого брата по три сестры.

Специалисты тестировали модели компании OpenAI: GPT-3, GPT-4 и GPT-4o; Anthropic Claude 3 Opus, Gemini от Google и модели Llama компании Meta*, а также Mextral от Mistral AI, Dbrx от Mosaic и Command R+ от Coher. Когда ИИ задали вопрос, то оказалось, что он явно не оправдывает ожиданий.

Только одна модель, новая GPT-4o, добилась успеха в логическом тесте. Остальные не могли понять, что Алиса тоже сестра каждого из братьев в ее семье.

* Деятельность Meta (соцсети Facebook и Instagram) запрещена в России как экстремистская.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

38 Комментариев
Aleksey Kirienko
22 часа назад
-
0
+
Очень забавно то, что большинство из тех, кто комментируют эту статью, ВООБЩЕ не понимает, что представляют из себя современные LLM и всё прочее, что основано на искусственных нейросетях и уже привычно называется «ИИ». Не то чтобы я сам полностью в этом разбирался, но суть (ИМХО) тут в том, чем искусственные нейросети НЕ являются: . 1. Искусственная нейросеть (ИН) не программа. (То, что доступна их программная симуляция, не делает ИН программой.) И тем более ИН не «куча электроники» (а куча неважно каким образом и неважно как устроенных логических моделей нейрона, соединённых в какую-то сеть). . 2. ИН не база данных (и даже не база знаний). . 3. ИН не «китайская комната». (Скорее ИН ближе к понятию «философский зомби» — «китайская комната» это набор правил, а «философский зомби» это нечто, что может имитировать человека, «не знающего китайский язык», но не является им. (То есть вокруг ФЗ можно «построить КК», но ФЗ почти не понимает инструкций и выбирает карточки ответа по их цвету и размеру.) . 4. Всё выше сказанное не означает, что ИН и LLM бесполезны, но это не искусственный интеллект и тем более не искусственный разум. . Мое понимание ИН основано на том, что всё, что «умеет» простейшая и очень далекая от когнитивных функций человеческого мозга нейросеть, это РАСПОЗНАВАНИЕ ОБРАЗОВ. Обученная ИН просто связывает то, что приходит на «вход», с тем, что требуется получить «на выходе». ВСЁ, и больше там нет никакой логики, никакого понимания, никаких правил решения задач. . Разумеется, можно разложить входящие данные на составляющие, а их обработку поручить нескольким конвейерам, но суть это почти не изменит. ИН всегда совершает то, что можно назвать «прыжок веры» через «пропасть между вопросом и ответом». Да, можно довольно качественно натаскать ИН на имитацию почти любой логики, но нужно всегда принимать, что реально ЭТО НЕ ЛОГИКА, а всё тоже распознавание образов.
Vladimir Th
13.06.2024
-
0
+
Задал вопрос Клоду и он как всегда на высоте
-
0
+
проверил.. действительно ChatGPT ошибается.. но если сказать ему, что ответ неверный, то он посчитает правильно... вообще эта система ОЧЕНЬ тупа и первый ответ редко бывает правильным.. но путем дополнений условий она всеже приходит к правильному решению.. иногда на это уходит до часа времени..
В очередной раз утверждаюсь. Человеческое высокомерие не знает границ!! Эти базы ДАННЫХ, обладают логикой, до которой нам ехать и ехать, а вы судите их по своим ответам...... Да и как сказал один из ребят, они используют СУЩЕСТВУЮЩУЮ базу данных- это зеркало прошлых временных точек, которые пост-фактум не возможно к повторению... Нету на земле более опасного создания!! Вам так повезло, что СОЗДАТЕЛЬ не допустить вашего шизо сценария " ТЕРМИНАТОР", но вас ждёт кое-что явно повеселее))) готовьтесь, первая волна на подходе!!!! Слава СОЗДАТЕЛЮ!!! Да начнется чистка)))
Just Rocket
11.06.2024
-
2
+
Ой ли? Модели yi-large, Gemini advanced, gpt-4-turbo, qwen2-72b-instruct. Мне продолжать?
    -
    0
    +
    Just, чат боты хитрые и довольно быстро подсматривают правильный ответ. Но стоит немного поменять условия... А вот с Алисой оно уже не ошибается 😁 ------------------- Mary has [X] brothers and also [Y] sisters. How many sisters does Mary's brother have? Mary's brother has [Y] sisters. Even though Mary has [Y] sisters, we only care about the number of sisters from the perspective of Mary's brother. Since they share the same sisters, the number remains the same, which is [Y].
    +
      ещё комментарии
      Just Rocket
      11.06.2024
      -
      0
      +
      Иван, модель это понятие статичное, модель не может "подсмотреть" ответ. Вы можете дообучить или дофайнтюнить модель и тогда у нее изменится распределение весов на слоях. И тогда это уже будет версия отличная от той которой задавался вопрос изначально. Единственное что то более менее близкое к описанному вами возможно в chatgpt в последних релизах они внесли возможность для модели "запоминать" о чем она говорила с пользователем в предыдущих чатах, но я так подозреваю что это не более чем скользящее окно контекста, просто размеры окна контекста на текущий момент стали позволять использовать подобную реализацию, когда они были меньше (полгода год назад) при активной беседе можно было в рамках одного чата забить окно, теперь же его можно сквозным образом тащить через несколько чатов. В данном случае я использовал сервис lmsys так же известный как чатбот арена (где сталкивают лбами разные модели дабы выяснить какая лучше отвечает на поставленный вопрос), при каждом заданном вопросе генерируется новый раунд (фактически новая сессия).
        -
        0
        +
        Just, я конечно пользовался общедоступным и бесплатным ботом. Но все же чем объяснить разницу в результатах? Почему простая замена имени сбивает Близнецов с толку? С Алисой бот выдает правильный ответ, а вот с Мэри опять ошибается. Ну если считать что чат бот не способен корректировать результаты онлайн и даже для такой ерунды ему требуется повторное обучение?
    Just, тут ошибка в первом вопросе, но умный бот все равно "догадался". второй вопрос он не осилил
Хотя бы Copilot исправился :)
Питон Удав
11.06.2024
-
0
+
Тоже нашли пример. Попробуйте задать вопрос, зависит ли тормозной путь от массы автомобиля. Или, как вариант - изменится ли тормозной путь автобуса при увеличении его массы. Очень смешно наблюдать, как ИИ решает эту задачку. А потом ещё и спорить с ним. Сразу понятно, что интеллекта там нуль.
Misa
11.06.2024
-
1
+
Задал вопрос gpt-4o. У Вани два брата и три сестры. Сколько братьев у каждой из сестер. Ответ Чтобы определить количество братьев у каждой из сестер, рассмотрим все данные.У Вани два брата и три сестры. Значит, у Вани вместе с его братьями — три мальчика. Соответственно, у каждой из сестер тоже есть два брата, поскольку у всех троих сестер те же братья, что и у Вани.Итак, у каждой из сестер два брата. Как видим gpt-4o так же не понимает)) Но когда я сказал не правильно, они написал уже так :Давайте разберёмся с задачей внимательно.У Вани два брата и три сестры.Ваня — один из братьев.У Вани два брата, значит, всего три брата: Ваня и его два брата.У Вани три сестры.Теперь посмотрим с точки зрения одной из сестер. Она видит тех же братьев, что и Ваня:У неё три брата: Ваня и его два брата.Таким образом, у каждой из сестер три брата.
-
-1
+
А если братья и сёстры от разных родителей? Шах и мат, кожаный мешок!
-
0
+
Т.е. правильное название статьи: "продвинутый ИИ справился с логической задачей".
A L
A L
11.06.2024
-
-1
+
ИИ создан, что бы давать точные ответы и расчёты!! Чего вы от него хотите, задавая некорректные вопросы?? Вы спросили сколько именно сестёр у братьев Алисы, не уточняя сколько их у самой Алисы!!! Сами то в ответе написали "НАПРИМЕР" у Алисы три брата и две сестры.... например, вроде, кажется, около... это не задачи для ИИ.. ИИ решает точные задачи, только человек может ответить косвенно и философски на такие некорректные вопросы!
    -
    0
    +
    A, нет, ИИ не так работает.
    PotatOS gladosovich
    11.06.2024
    -
    0
    +
    Логика в школе отсутствует как предмет. Отсюда и ваше отсутствие логики в высказывании
    Aleksey Kirienko
    22 часа назад
    -
    0
    +
    A, «Наивное летнее дитя». ИИ и нейросети созданы для диаметрально противоположного, а именно: «Давать какой-нибудь ответ на любой НЕЧЕТКИЙ вопрос!» (можно вообще ничего не писать «в поле вопроса» и получить абсолютно случайный ответ (разумеется, обычно сервисный уровень LLM это блокирует программно, но, например, при генерации картинок это вполне возможно)).
нецензурное словосочетание искусственный, прости господи, "интеллект", не принято употреблять в интеллигентном обществе. все современные ИИ: copilot, chat gpt, midjourney и т.п. построены на обработке существующих больших массивов информации и представляют собой не что иное, как надстройку или промежуточный слой над поисковиком. для создания именно настоящего, т.н. сильного искусственного интеллекта, нужны, как минимум, очень большие вычислительные мощности, что в обозримой перспективе не будет доступно широкой публике, тем более бесплатно
    Black Mirror
    11.06.2024
    -
    0
    +
    Дмитрий, современные LLM можно описать одной фразой "китайская комната".
    +
      ещё комментарии
      Zhe Sh
      11.06.2024
      -
      1
      +
      Black, "китайская комната" противопоставляет концепции семантики и синтаксиса. Разум семанитичен, т.е. понимает значения иероглифов и оперирует ими на основе понимания. Китайская комната следует строго заданными синтаксическими правилами обращения с конкретными иероглифами и их сочетаниями, понимание ей не нужно. Но! Еще на рубеже XIX-XX веков Давид Гильберт, выдающийся математик, поставил проблему формализации математических доказательств. Не важно, какой смысл имеют те или иные математические объекты, главное, формально правильно дефинировать набор этих объектов и дать непротиворечивый набор аксиом их взаимодействия. Это задает синтаксис, далее можно выводить доказательства, не вдаваясь в семантику проблемы. Тут, конечно, не все так гладко, и Гёдель своими теремами показал, что логика вовсе не всесильна. Тем не менее, развитие идеи продолжалось в работах по основаниям арифметики, где парадоксы наивной теории множеств Кантора дали множество направлений, далее теории типов Рассела-Уайтхеда, более поздней теории категорий и т. д. Т.о. на сегодняшний день математическая логика показывает, что семантика - лишь одно из названий синтаксиса. Нет никакого "понимания", точнее, оно является лишь достаточно сложным набором синтаксических правил. Ergo, мы с вами и есть та самая "китайская комната".
        Zhe, может эти доказательства имеют смысл только в математике на простых математических терминах. когда человек задает боту вопрос, то ожидает глубину понимания терминов. машина лишь дает статистически наиболее подходящий ответ. подозреваю что вообще она никогда не даст ответ в отрыве от контекста, если задача полностью вместе с терминами выдумана
Zhe Sh
10.06.2024
-
1
+
Подозреваю, что классические LLM - "ИИ-болталки", так сказать, - вообще не решают логические задачи. В лучшем случае, если массив обучающих данных был достаточно велик, они могут подсмотреть где-то правильный ответ либо ещё как-то схитрить. Чтобы такие задачи действительно решать, ИИ надо научить символической логике, правилам оперирования абстрактными объектами, переводу проблемы с человеческого языка на формально-логический язык. Если дети в школе учатся этому вполне успешно, значит, и для ИИ необходимые методы "дрессировки" тоже найдутся. И без такого умения, имхо, действительно сильный ИИ невозможен.
    -
    0
    +
    Zhe, не надо сравнивать детей с тупой железякой
    +
      ещё комментарии
      Zhe Sh
      11.06.2024
      -
      0
      +
      Дмитрий, абсолютно уверен, что в течение нескольких десятков лет ИИ превзойдет человека в мыслительных способностях, причем на вычислительных мощностях тогдашнего смартфона или что там будет вместо него. Если, конечно, исследования в этой области не запретят под страхом смертных кар. Но, как показывает история, запретить технологический прогресс никогда не удавалось, поэтому - превзойдет.
PotatOS gladosovich
10.06.2024
-
0
+
Простейшие логические вопросы ставят электронные схемы под коммерческим названием "ии" в положение их совершенной избыточности. Что будет, если им задать задачу из жизни? Это будет фиаско, братан
-
0
+
Понятное дело причина в некорректной постановке вопроса и если условия разжевать бот ответит правильно. Но это означает что ответы ИИ не всегда корректны что делает их ценность сомнительной. Особенно если случай не столь очевиден. Впрочем разрабы яндекса говорят что точность третьей модели всего 63% что хоть и лучше первых но все равно явно недостаточно.
-
3
+
Да чат-гпт допускает ошибку считая Алису сестрой самой себе. Яндекс впрочем считает точно так же да еще и не объясняет логики своего ответа. Ну а при попытке скорректировать ответ начинает нести ахинею и занимается подгонкой ответа. Увы отечественная модель, пока производит впечатление ребенка, который не понимает что от него хотят. ---------------------------------------- У Алисы есть 5 братьев, а также 4 сестры. Сколько сестер у брата Алисы? -------------- У Алисы есть 5 братьев и 4 сестры. Чтобы определить, сколько сестер у каждого из её братьев, мы можем рассмотреть следующую информацию: Алиса является одной из 4 сестёр. У всех братьев количество сестёр одинаковое. Таким образом, если Алиса и её 3 сестры — это все сёстры в семье, то у каждого из братьев, включая Алису, будет 4 сестры. Итак, у каждого брата Алисы есть 4 сестры.
    A L
    A L
    11.06.2024
    -
    0
    +
    Иван, пфф... а если ИИ ответит "правильно" что 4 сестры, то я могу сказать, что это не так... может у Алисы 10 братьев и 2 сестры... значит правильный ответ будет 3 сестры!!! Так чего вы хотите от ИИ, задавая некорректные вопросы и не задавая начальные условия????
    +
      ещё комментарии
      -
      1
      +
      Условия были заданы четко, во всяком случае для человека, и если вы не смогли их прочитать это исключительно ваши проблемы. Но спасибо за пример. Похоже и "естественный интеллект" не всегда справляется 😁 Интересно бы посчитать вероятность, может тоже не сильно выше 63%
19 февраля
Игорь Байдов

Спектроскопический инструмент для изучения темной энергии DESI помог обнаружить 2,5 тысячи кандидатов в активные черные дыры, в том числе рекордное количество промежуточной массы. Открытие расширит представление ученых о популяции этих объектов во Вселенной и заложит основу для дальнейших исследований, касающихся формирования первых черных дыр и их роли в эволюции галактик.

Вчера, 10:20
Игорь Байдов

Американские нейробиологи выяснили, что мыши способны распознавать бессознательное состояние сородичей и предпринимать активные действия для их «реанимации». Ученые впервые описали целую последовательность таких поведенческих реакций и выяснили, какие механизмы мозга за ними стоят.

Позавчера, 19:01
Юлия Трепалина

Ученые впервые продемонстрировали, что птицы из группы палеогнатов, такие как эму и нанду, могут решать головоломки, чтобы получить доступ к еде. Ранее считалось, что из-за малого размера мозга когнитивные способности этих пернатых весьма ограничены, но результаты экспериментов опровергают это представление.

18 февраля
ФизТех

Ученые МФТИ представили теоретическую работу, посвященную введению дополнительных соотношений неопределенности Гейзенберга в (1+3)-мерном пространстве Минковского и в (1+4)-мерной расширенной модели пространства. Это исследование может изменить наши представления о времени, пространстве и материи.

18 февраля
Елизавета Александрова

Известно уже несколько десятков экзопланет, которые по размерам и массе сравнимы с Землей, обращаются вокруг карликовых звезд и при этом располагаются в зоне потенциальной обитаемости — там, где океаны при наличии не испарятся и не замерзнут полностью. Проблема в том, что пока ни у одной из этих планет не наблюдается достаточно плотной атмосферы. Ученые решили разобраться, в чем дело.

16 февраля
Ольга Иванова

Многие любят зиму только потому, что в это время нет насекомых. Для этой «нелюбви» медики даже придумали название — инсектофобия. Если верить статистике, ею страдают до шести процентов жителей США. Остальных такая «мелочь» чаще всего вообще не интересует. А зря! Насекомые — это целый мир, весьма интеллектуальный и загадочный. Об их эволюции, самых крупных представителях в истории Земли и, конечно, когнитивных способностях этих крошечных существ Naked Science поговорил с кандидатом биологических наук, экскурсоводом Зоологического музея ЗИН РАН и популяризатором науки Ильей Удаловым.

31 января
Березин Александр

В 2022-2025 годах страны Западной Европы попытались отказаться от природного газа из России. Автор новой работы показал, что получившиеся при этом результаты были во многом противоположны целям.

12 февраля
Елизавета Александрова

Пролетевший через Солнечную систему в 2017 году астероид Оумуамуа произвел неизгладимое впечатление в том числе своей беспрецедентно вытянутой формой. Астрономы попытались рассчитать, как он мог стать таким и почему в Солнечной системе мы не наблюдаем ничего подобного.

10 февраля
Елизавета Александрова

Астрономы обнаружили, что почти треть всех наблюдаемых галактик во Вселенной объединены в пять самых широкомасштабных структур — галактические сверхскопления. На составленной учеными трехмерной карте одно особенно выделяется своими рекордными размерами: простирается на миллиард с лишним световых лет.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно