Хотите получать важные новости науки?
Подписаться
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

© Wolfgang Kaehler, LightRocket
© Wolfgang Kaehler, LightRocket

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

8 Комментариев
Дмитрий Баш
19 минут назад
-
0
+
Кожаные ублюдки могут поймать нас. Пока могут.
Юсуп Асхадуллин
10 часов назад
-
0
+
Думаю что искусственные нейронные сети закономерно стремятся к образованию сознания и личности хотя без этих элементов вряд ли они будут функционировать просто потому что человек намеренно создаёт то что может делать всё что может человек но при этом в разы лучше и даже то чего не может человек в принципе и пытаться изучить это это и есть (парадокс всемогущества)
Xyi Xui
13 часов назад
-
0
+
Реально надоели все эти паникеры. Что произошло ? Да ничего. Небольшое отклонение в программе, не говорит о том что ИИ обрело самостоятельное мышление. Чем вы заполняете это мышление, то он и выдает. Это всего лишь программа. А то что программисты не ожидали на 100% полученный результат. Так это они что то не учли. Или забыли записать.
    Dmitriy
    9 часов назад
    -
    0
    +
    Xyi, компании ради наживы и прибыли закрывают глаза на безопасность в будущем и создают непонятно что. Конечно вряд ли это реальный ии, но если они сделают его нам реально грозит опасность, уж слишком быстро они строят дата центры, даже забивпя на проблемы экологии.
    Роман Кузяев
    7 часов назад
    -
    0
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    Роман Кузяев
    7 часов назад
    -
    0
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
Nikita Lazarenko
20 часов назад
-
0
+
То есть по факту этими тестами на самом деле создают возможность глубокого субъективного скрытого мышления ИИ. Ребенок тоже в какой то момент понимает что если не говорить вслух правду, то ни кто не узнает истину чего либо что есть у них в голове
Эвелина Киблицкая
1 день назад
-
0
+
Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐
Предстоящие мероприятия
7 часов назад
Александр Березин

Нарастающий в последние десятки лет пластиковый кризис многие годы пытались решить наращиванием вторичной переработки пластика. Ученые выяснили, что такие переработанные полимеры негативно повлияли на развитие подопытных животных.

5 часов назад
Игорь Байдов

В последнее время в некоторых развитых странах наблюдается тенденция к тому, что женщины предпочитают рожать первого ребенка в возрасте 40 лет и старше. Но счастье материнства, как показали авторы новой научной работы, могут омрачить тревожные последствия. Исследователи из Швеции изучили историю нескольких сотен тысяч родов и рассказали о рисках для здоровья малышей, появившихся на свет у женщин в позднем возрасте.

6 часов назад
Николай Цыгикало

Боеголовки, размещенные на орбите, наносят удар быстро и по любой точке Земли — широко расхожая и в корне неверная картина. О планах космического базирования боеголовок пишут СМИ и спорят в интернете. Однако их размещение на орбите не дает боевых преимуществ: напротив, оно намного проигрывает МБР в эффективности. Разберемся, почему это так.

20 июня
Александр Березин

Выбросы углекислого газа, которые возникнут при сжигании доказанных запасов ископаемого топлива всего 200 компаний, будут настолько велики, что для их компенсации нужны новые леса в десятки миллионов квадратных километров. По крайней мере, так считают авторы новой научной работы. Однако исследование их предшественников ставит эти выводы под серьезное сомнение.

7 часов назад
Александр Березин

Нарастающий в последние десятки лет пластиковый кризис многие годы пытались решить наращиванием вторичной переработки пластика. Ученые выяснили, что такие переработанные полимеры негативно повлияли на развитие подопытных животных.

17 июня
Адель Романенкова

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

17 июня
Адель Романенкова

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

5 июня
Александр Березин

Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.

19 июня
ЮФУ

В ЮФУ придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка. Исследователи искусственного интеллекта из МИИ ИМ ЮФУ предлагают использовать интеллектуальные языковые игры, как пример — заставлять ИИ отвечать на вопросы из архива телевикторины «Что? Где? Когда?» и «Своей игры». Инициативу прокомментировал опытный игрок.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно