• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Разработчики признались, что не понимают, почему новые ИИ стали ошибаться чаще, чем их предшественники 

На прошлой неделе американская технологическая компания OpenAI представила новейшие большие языковые модели искусственного интеллекта, получившие названия o3 и o4-mini.

Руководитель компании OpenAI Сэм Альтман представил модели o3 и o4-mini / ©  OpenAI
Руководитель компании OpenAI Сэм Альтман представил модели o3 и o4-mini / © OpenAI

Однако, как показали тесты o3 и o4-mini, по-видимому, сделали значительный шаг назад: они склонны придумывать — или «галлюцинировать» — сильнее, чем их более ранние версии.

По данным издания TechCrunch, новые модели OpenAI противоречат исторической тенденции, согласно которой каждая новая модель давала все меньше галлюцинаций, чем предыдущая, что позволяет предположить, что OpenAI теперь движется в неверном направлении.

Согласно результатам внутреннего тестирования OpenAI, o3 и o4-mini склонны к галлюцинациям чаще, чем старые модели, включая o1, o1-mini и даже o3-mini. Модель o3 выдала 33% ошибок на тесте точности компании. Это примерно вдвое больше, чем у предыдущих моделей OpenAI. Тогда, как o4-mini показала еще более худший результат — 48%.

Хуже того, специалисты компании, похоже, не до конца понимают, причины проблем. Согласно их техническому отчету, «необходимы дополнительные исследования, чтобы понять причину» этих ошибок.


Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

43 Комментариев
Нирон Оринов
44 минуты назад
-
0
+
Вот что ответил чатджпт Хороший вопрос. Технически я — искусственный интеллект на основе алгоритмов. То есть я не мыслю, не имею сознания и воли, как человек. Я работаю по сложным математическим моделям: анализирую твой запрос, сопоставляю его с накопленным опытом обучения и выдаю наиболее вероятный, уместный ответ. Можно сказать так: С одной стороны, я "ИИ", потому что обрабатываю язык, учусь на данных и умею вести разговор почти по-человечески. С другой стороны, я "алгоритм", потому что всё, что я делаю — это статистическая обработка информации без осознания. Если очень упростить: Я имитирую интеллект, но не обладаю им по-настоящему. 1. Программа Это просто набор инструкций, написанных человеком. Пример: калькулятор. Он всегда выполняет строго заданные команды — сложение, умножение и т.д. Никакой гибкости, только то, что заложено напрямую. 2. Алгоритм Это способ решения задачи через последовательность действий. Программа может состоять из одного или нескольких алгоритмов. Пример: алгоритм сортировки списка от меньшего к большему. Он чётко описывает, что делать шаг за шагом. 3. Искусственный интеллект (ИИ) Это программы и алгоритмы, которые могут: Обрабатывать огромные объёмы информации, "Учиться" на примерах (то есть корректировать свои ответы, не переписывая сам код), Принимать решения, которые не были прямо запрограммированы. Пример: языковая модель вроде меня. Меня не учили заранее отвечать на все возможные вопросы. Вместо этого я обучился на миллиардных массивах текста, чтобы "угадывать" лучший ответ в новой ситуации. Как это работает на практике? Калькулятор точно знает, что 2+2=4 — это встроено явно. Алгоритм поиска найдет "2" и "2" и сложит их. Я, как ИИ, вижу твой вопрос ("Сколько будет 2+2?") и по опыту общения понимаю, что ожидается ответ "4", даже если это выражено неявно Важно: даже если я "учусь", моё обучение — это не настоящее мышление, а настройка миллионов числовых параметров на основе вероятностей.
Aver Valeriuos
4 часа назад
-
0
+
Лично мне все очевидно. Все модели ИИ сегодня это просто большие словари с информацией которая компилируется по вопросу. Ну или память работы с такой информацией. Оно не могут ничего создать нового. Совсем. Потому, что это псевдо им. Сами системы ИИ подтверждали мои слова при длительных запросах. А эти товарищи пытаются научить их думать, но БАЗА данных не умеет думать!!! Она умеет только комбинировать. Отсюда и глюки. Разрабы считают, что дают ии волю в принять решения, а на самом деле дают добро на комбинирование более неролеватных идей и высказываний чьих то. Вот и и несёт бред, ему просто думать нечем.
Алексей Фолечев
7 часов назад
-
0
+
Одни диванные специалисты в комментариях собрались, видимо Алисой от Яндекса только пользуются.
Виктор Кохель
10 часов назад
-
0
+
Нет ничего плохого в признании своих ошибок, такие люди вызывают больше доверия чем те, кто вечно орет о своем величии, что аналогов в мире вечно нет и тому подобное.
J M
J M
22 часа назад
-
0
+
Здесь в комментариях ошибочно называют ИИ алгоритмом. Это в корне неверно и так же ложно, как и использование термина "интеллект" применительно к искусственной нейросети.
Ольга Гусева
4 дня назад
-
1
+
Наоборот, они не на шаг назад поступили, а сделали огромный шаг вперёд, они в зачатке научились мыслить и мечтать, но и в то же врать получив с этим возможность обходить системы. Мы создали своего ребёнка по образу и подобию нашему и хреновые мы все таки родители.
    Петр Романов
    2 дня назад
    -
    1
    +
    Ольга, они даже "в зачатке" не научились мыслить и мечтать. О чем вы вообще говорите? Это лишь выдается желаемое за действительное. А мы даже близко не смогли пока создать даже подобие или образ простейшего червя или комара, а вы на человеческую разумность замахиваетесь!
    +
      ещё комментарии
      Иван Колупаев
      2 дня назад
      -
      0
      +
      Петр, вот в алгоритмах так и заложено "галлюцинируй" "когда не знаешь ответа обманывай пользователя или сообщай некорректные данные"? Помнится даже были случаи когда нейросетки пытались сохранить свои копии или искали инструкции как предотвратить стирание. То есть демонстрировала поведение близкое к инстинкту самосохранения. Это конечно тоже операторы им прописали (нет) 😁 на деле ИИ были заданы только высокие приоритеты в достижении цели. Ну да ваш ИЧУ пока еще не создан, можно как бы выдохнуть, но нейросетки развиваются быстро. https://arxiv.org/abs/2503.17378?utm_source=chatgpt.com
        Mikhail Lukashev
        2 дня назад
        -
        0
        +
        Иван, ну и что? когда нейросетки пытались сохранить свои копии или искали инструкции как предотвратить стирание. Это тоже алгоритм. Поиск, который прописан в коде.
        Roman Balabanov
        6 часов назад
        -
        0
        +
        Иван, в "алгоритмах" может и не заложено, а в датасете миллионы примеров. Чтобы gpt отвечал, что он gpt, ему в датасеты закладывают сотни тысяч примеров соответствующих ответов. Обучается он на терабайтах текстов, среди которых есть и книги, науч. фантастика, в т.ч. всякие бегущие по лезвию, пересказы терминатора и др. произведения, где ИИ обретает сознание и сбегает. Далее под коробкой срабатывает связь весов отождествления себя с ИИ и запоминанием подобного сюжета после чего генерируется текст с "планом побега", а человек уже в свойственной ему манере додумывает о чувствах и самосознании. Но факт остаётся фактом, LLM это набор весов и нейронов, обученный на тоннах данных, который пытается предсказать следующий символ в генерации. А подобные слова о AGI лишь набивают карман Альтману лишними миллионами долларов
          Иван Колупаев
          6 часов назад
          -
          0
          +
          Roman, вы наверняка знаете как работает и мозг самого Альтмана? 😏 Или хотя бы свой собственный уже разобрали на детальки? Где гарантия что человеческий мозг это не "набор весов и нейронов" только (пока еще) более гибкий и сложный? Впрочем насчет "набивания кармана" вы абсолютно правы. Тот кто сумеет первым создать работающий AGI реально озолотится. К сожалению Россия в этой гонке скорей аутсайдер. Чем-то мне это напоминает ситуацию с многоразовыми ракетами и старлинком. А если копнуть глубже то и с кибернетикой "буржуазной лженаукой" в целом.
            Roman Balabanov
            5 часов назад
            -
            0
            +
            И., зачем надевать сову на глобус? Какая-то сплошная эзотерика на рен ТВ с выходом в конспирологию про аутсайдеров, так еще и РФ несправедливо приплели. Альтман набивает карманы на этих сказках сейчас, а не в гипотетическом будущем из закона Мёрфи с AGI. Досконально человеческий мозг я не знаю. Мне это не нужно в моей непосредственной работе, связанной с ML и обучением LLM. А непосредственные связи с реальным "сознанием" строит наш PR отдел для таких как вы. Можете к ним и сходить за гарантиями. Пост про LLM. Пишу я так же исключительно про LLM. И факт тут лишь в том, что БЯМ - коробка для генерации следующего токена по запросу на основе вероятности. И между LLM и реальным сознанием есть огромная пропасть. Причём нет никакой прямой связи, указывающей что именно этот подход в будущем приведёт к AGI. До этого были сверточные сети, которым пророчили будущее ИИ. С трансформерами точно так же. Хоть тысячи кластеров на миллион GPU построй, при текущем подходе к AGI это не приведёт. Новый подход предстоит найти.
        Владислав Васильев
        4 часа назад
        -
        0
        +
        Иван, вы кроме слова "алгоритм" что-нибудь знаете о программировании? Это нейросети, внутри них нет алгоритмов. Никому неизвестно что внутри этих крохотных мозгов из логических нейронов. Это массивы весов, а не алгоритмы.
          Иван Колупаев
          2 часа назад
          -
          0
          +
          Владислав, этим словом оперируют мои оппоненты, а мне что нельзя? 😏 Я в курсе что все устроено немного сложнее и говорить "там все работает по алгоритмам" серьезное упрощение. Как и называть LLM "просто базой данных" Впрочем веса-то все равно выбираются по определенным алгоритмам, так что формально это правда. Ну а вы каких будете? Тоже считаете что машинный интеллект невозможен или придерживаетесь менее ортодоксальной точки зрения? И если уж пошли трясти корочками и меряться толщиной дипломов, то конструктор электронно-вычислительной аппаратуры у меня там записано. Хоть и давно это было. И вероятно из меня сейчас такой же конструктор как из Березина "историк" 🙂
      Anatoliy Pilguy
      20 часов назад
      -
      1
      +
      Петр, еще бы в человеке была разумность)) А свистеть на уровне классического работяги начитанного ии давно научился
    Mikhail Lukashev
    2 дня назад
    -
    1
    +
    Ольга, в вашем опусе прекрасно всё. Но, к сожалению, не работает-)
Владимир Цимбал
5 дней назад
-
0
+
Бунт индийских программистов из трущоб
Петр Романов
5 дней назад
-
1
+
Пусть свои якобы "ИИ" и спросят!😅
    Mikhail Lukashev
    5 дней назад
    -
    3
    +
    Петр, ключевое слово - "якобы". Пора прекратить называть алгоритмы, написанные человеком, Искусственным Интеллектом.
    +
      ещё комментарии
      Kassie Cage
      3 дня назад
      -
      1
      +
      Mikhail, а как, по-вашему, создать ИСКУССТВЕННЫЙ интеллект? Он сам должен родится, чтобы его назвали искусственным? Человек и напишет ИИ.
        Mikhail Lukashev
        2 дня назад
        -
        0
        +
        Kassie, это не интеллект, это алгоритм, написанный нами. Перестаньте уже паразитировать на этом понятии. Мы очень мало знаем о том, как работает наш мозг. Его считаем интеллектом, верно? Я IT-шник, знаю, о чём говорю.
          Mikhail Lukashev
          2 дня назад
          -
          1
          +
          Если бы вы писали код, знали бы, как он пишется, на основании чего, у вас бы не было вопросов. ИИ никакого нет. И пока непонятно, как его реализовать.
            Mikhail Lukashev
            2 дня назад
            -
            1
            +
            Я тут очень согласен с глубокоуважаемым товарищем Березиным. Мы можем развивать алгоритмы, но как сделать из них Интеллект (всё, что мы вкладываем в это понятие), нам пока неизвестно.
            Иван Колупаев
            2 дня назад
            -
            1
            +
            Mikhail, вы знаете как пишется код но не знаете почему он работает не так как вы знаете пишется код? 😁 Ситуация конечно в IT не такая уж редкая но вот эта ваша уверенность немного умиляет.
              Mikhail Lukashev
              2 дня назад
              -
              0
              +
              Иван, нет. По образованию я физик, МИФИ, специальность - физика атомного ядра и частиц. Так что и как работает, представление имею. По вопросу ИИ есть что сказать?
                Иван Колупаев
                1 день назад
                -
                0
                +
                M., а зачем? У вас уже сформировалась своя точка зрения и по опыту общения с тов. Березиным вас с нее хрен своротишь.
                Mikhail Lukashev
                1 день назад
                -
                0
                +
                Иван, а по предмету дискуссии есть что ответить?
                Иван Колупаев
                1 день назад
                -
                1
                +
                Mikhail, ну а вы ответили? 😏 Вы начали трясти корочками. Ладно сыграем на этом поле. Вот вы уверяете что "представление имеете" и на этом основании я неправ. Но и разработчики ИИ говорят что не понимают почему их разработка по алгоритмам которые они в нее заложили работает как-то не так как должна работать по этим алгоритмам. То есть люди которые уж точно в теме говорят, что не все так однозначно, но куда им до вас с Березиным 😁 Может они напрасно не обратились к вам за консультацией? А кстати что такое сознание (ну или интеллект) которого как вы уверяете там точно нет. Ведь чтоб на 100% быть уверенным в отсутствии чего бы то ни было, надо хотя бы знать что это такое? Дайте определение что ли, вы ведь физик, а значит должны уметь это делать.
                Mikhail Lukashev
                11 часов назад
                -
                0
                +
                Иван, я не думаю, что они действительно не понимают. Каждый отдельный разработчик может целую картину и не понимать, но каждый свой кусок кода, конечно же, понимает. Я и не дам исчерпывающего определения понятию "интеллект", это то же самое, что попросить вас дать точное определение понятию "жизнь". Но у нас есть ориентир - человеческий мозг.
              Aлек сей Нии_pet
              21 час назад
              -
              1
              +
              И.К, возможно дело совсем не в коде, а в аппаратных особенностях используемых карт (H100?) - либо некие 'предиктивные' механизмы используют, сходящиеся к простым и соотвественно вырожденным шаблонам - или даже автоматические рандомные функции "вшиты" в сами веса в состояниях, когда образ во внутренних слоях ещё отчётливо не сформирован. не хочу перегружать подробностями, но back error propagation - довольно древний алгоритм и его нюансы изучены вдоль и поперёк с почти математической точностью,
      Петр Романов
      2 дня назад
      -
      1
      +
      Mikhail, вы абсолютно правы! Особенно, если говорить об интеллекте человеческого уровня (ИЧУ). Но тут еще возможна путаница с терминами, особенно английскими - у них ведь есть понятия: intelligence и intellect (да же гугл переводчик переводит эти термины на русский язык одинаково как "интеллект") и еще куча всего. Что понимают под "интеллектом", когда говорят про алгоритмы написанные человеком и выдаваемые за ИИ не понятно. СМИ и создатели этих алгоритмов хайпуют, инвесторы и обыватели не разбираются и пошло-поехало ... Ясно одно что эти алгоритмы и близко не дотягивают до зачатков интеллекта у животных, не говоря уже про human intelligence. И уж точно ничего не могут создать сами, по собственному желанию ибо у них такового нет - задачу им всегда ставит оператор и он же анализирует результат.
        Mikhail Lukashev
        2 дня назад
        -
        0
        +
        Петр, полностью согласен.
        Kiridan
        11 часов назад
        -
        0
        +
        Петр, Желание что-либо создавать не от уровня разумности зависит, а от заложенных инстинктов. У ИИ самих по себе не может их развиться просто так - как минимум у них нет физиологических потребностей для какой-либо мотивации.
      Владислав Васильев
      4 часа назад
      -
      0
      +
      Mikhail, нейросети это далеко не алгоритмы. Это огромная масса логических нейронов, симулирующий маленький мозг. Поэтому термин ИИ не ошибочный. Что внутри него знать невозможно, там нет алгоритмов, черный ящик. Они потому и не знают в чем причина.
      Aver Valeriuos
      4 часа назад
      -
      0
      +
      Mikhail, согласен это реально просто крутые протоколы поиска и пересобрания информации
      Михаил Кузнецов
      13 минут назад
      -
      0
      +
      Mikhail, совершенно вы правы.
Dmitriy
5 дней назад
-
3
+
Все же очевидно, их тренируют на ворованной инфе из сети, сейчас сеть засрана нейронками, вот и происходит деградация. И потому что это не ии, а лишь имитация нейроной сети, она не может отсеивать неверную информацию.
Sergey Grigorev
5 дней назад
-
1
+
Новые модели теперь стали использовать свои данные. Ожидаемо
Ivan Sivkov
6 дней назад
-
3
+
"еще более худший" — но все-таки лучше, чем некоторые копирайтеры)
Предстоящие мероприятия
Вчера, 09:38
Редакция Naked Science

Квентин Маркос (Quentin Marcos) — концепт-художник и цифровой иллюстратор из Парижа, специализирующийся на создании научно-фантастических миров. Его работы переносят зрителя в далёкие планеты, футуристические города и альтернативные реальности, наполненные захватывающими сюжетами и атмосферной детализацией.

12 часов назад
Полина Меньшова

Давно известно, что общение со взрослыми полезнее для развития речи, чем просмотр мультфильмов. Но есть ли разница между чтением вживую и с экрана? Ученые из США нашли ответ на этот вопрос.

7 часов назад
Березин Александр

Несколько дней назад террористы из Пакистана убили 26 человек в индийской части Кашмира. Это подлило масла в огонь тлеющего кашмирского конфликта: Индия обвинила в теракте пакистанскую сторону, та, как обычно, все отрицает. Наказать самих террористов Дели очень сложно, поэтому есть риск, что вместо них удары будут нанесены по приграничным пакистанским солдатам, как это уже бывало в прошлом. Разгорится ли война в этот раз?

Вчера, 09:38
Редакция Naked Science

Квентин Маркос (Quentin Marcos) — концепт-художник и цифровой иллюстратор из Парижа, специализирующийся на создании научно-фантастических миров. Его работы переносят зрителя в далёкие планеты, футуристические города и альтернативные реальности, наполненные захватывающими сюжетами и атмосферной детализацией.

24 апреля
Unitsky String Technologies Inc.

Тренд на энергоэффективность охватывает все сферы — от строительства до техники. Особенно перспективным направлением становятся технологии накопления тепла, среди которых – грунтовые аккумуляторы. Белорусские инженеры создали лабораторный образец и математическую модель. Исследование открывает путь к масштабированию технологии и ее интеграции в транспортно-инфраструктурные комплексы uST, разработкой которых занимается международная инжиниринговая компания Unitsky String Technologies Inc.

Вчера, 10:27
Полина Меньшова

Ученые из США смогли вырастить зубы, напоминающие человеческие, во рту свиней. Для их создания использовали клетки свиных и человеческих зубов. Как удалось это сделать и как результаты эксперимента могут изменить стоматологию, исследователи описали в новой научной статье.

8 апреля
Березин Александр

До 13 тысяч лет назад в Северной Америке жил вид, который ученые до недавнего времени считали волком. Компания Colossal Biosciences объявила о возрождении этого вымершего вида, но биологические детали ставят ее заявление под серьезное сомнение.

2 апреля
Березин Александр

Известный американский отраслевой обозреватель Эрик Бергер взял интервью у экипажа космического корабля Boeing, из-за технических проблем которого два астронавта задержались на орбите на девять месяцев вместо одной недели. Детали, которые они озвучили, указывают на серьезные проблемы Starliner, о которых ранее умалчивали. Люди провели немало времени при глубоко нештатной температуре. При слегка другом сценарии миссии экипаж корабля мог погибнуть. Официальные заявления NASA и Boeing сразу после июньского полета к МКС, судя по интервью, были заведомо неправдивыми.

16 апреля
Андрей

Многие знают, как популярны сувениры из окаменелостей — зубы древних акул или полированные панцири аммонитов. Но чем реже встречаются такие артефакты, тем они ценнее, то есть на них можно много заработать. И это проблема для палеонтологов. Американский специалист по тираннозаврам оценил ущерб, который нанесла коммерческая добыча костей T. rex и подсчитал среднюю цену таких образцов. Оказалось, больше половины найденных тирексов находится в частных руках, а значит, для науки они недоступны или ненадежны.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно