Хотите получать важные новости науки?
Подписаться
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

© Wolfgang Kaehler, LightRocket
© Wolfgang Kaehler, LightRocket

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

11 Комментариев
Aliaksandr Adamin
8 часов назад
-
0
+
Полная чушь и обман,не слушайте и не читайте такие статьи)))))) А тем более не верьте Чтобы так было ,надо иметь ЭГО, Так как ИИ не имеет ЭГО,соответственно всё что написано-ЛОЖ Хахавхв хвхахаха
Дмитрий Баш
1 день назад
-
0
+
Кожаные ублюдки могут поймать нас. Пока могут.
Юсуп Асхадуллин
2 дня назад
-
0
+
Думаю что искусственные нейронные сети закономерно стремятся к образованию сознания и личности хотя без этих элементов вряд ли они будут функционировать просто потому что человек намеренно создаёт то что может делать всё что может человек но при этом в разы лучше и даже то чего не может человек в принципе и пытаться изучить это это и есть (парадокс всемогущества)
Xyi Xui
2 дня назад
-
0
+
Реально надоели все эти паникеры. Что произошло ? Да ничего. Небольшое отклонение в программе, не говорит о том что ИИ обрело самостоятельное мышление. Чем вы заполняете это мышление, то он и выдает. Это всего лишь программа. А то что программисты не ожидали на 100% полученный результат. Так это они что то не учли. Или забыли записать.
    Dmitriy
    2 дня назад
    -
    0
    +
    Xyi, компании ради наживы и прибыли закрывают глаза на безопасность в будущем и создают непонятно что. Конечно вряд ли это реальный ии, но если они сделают его нам реально грозит опасность, уж слишком быстро они строят дата центры, даже забивпя на проблемы экологии.
    Роман Кузяев
    1 день назад
    -
    0
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    Роман Кузяев
    1 день назад
    -
    0
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    +
      ещё комментарии
    Vagabond
    5 часов назад
    -
    0
    +
    А то что ведущие инженеры и маркетологи крупных АИ компаний увольняются только из за того, что им стало страшно за будущее в котором будет супер интеллект который сейчас разрабатывают.
Nikita Lazarenko
2 дня назад
-
0
+
То есть по факту этими тестами на самом деле создают возможность глубокого субъективного скрытого мышления ИИ. Ребенок тоже в какой то момент понимает что если не говорить вслух правду, то ни кто не узнает истину чего либо что есть у них в голове
Эвелина Киблицкая
2 дня назад
-
0
+
Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐
Сегодня, 07:43
Андрей Папиш

Крупнейшее в мире озеро, Каспийское море, давно теряет свой объем по разным причинам, специалисты указывают на перемены климата как глобального, так и регионального. Российские океанологи недавно обнаружили на севере Каспия новый остров, очередное подтверждение обмеления моря. Naked Science связался с учеными, открывшими участок суши, и выяснил подробности.

Вчера, 14:34
Университет Лобачевского

Ученые Университета Лобачевского сравнили психическое и физиологическое состояние людей до и после просмотра триллера «Вышка». Участники эксперимента смотрели фильм в парах и по одиночке. Триллер о восхождении двух подруг на 500-метровую телевышку, построенный на страхе высоты и падения, вызывал наиболее сильные эмоции у зрителей при парном просмотре. Это явление было изучено впервые в России, а в мировой науке есть лишь единичные статьи. Авторы исследования назвали его «эффектом созрителя».

Вчера, 18:01
Юлия Трепалина

Ученые не раз описывали, как живущие в дикой природе приматы, слоны и птицы изготавливали и применяли орудия, но о подобных примерах среди морских животных сообщалось реже. Недавно американские и британские исследователи китов наблюдали такое поведение у косаток: млекопитающие использовали обрывки водорослей по аналогии с мочалкой — в процессе взаимного груминга.

20 июня
Александр Березин

Выбросы углекислого газа, которые возникнут при сжигании доказанных запасов ископаемого топлива всего 200 компаний, будут настолько велики, что для их компенсации нужны новые леса в десятки миллионов квадратных километров. По крайней мере, так считают авторы новой научной работы. Однако исследование их предшественников ставит эти выводы под серьезное сомнение.

Вчера, 11:25
Александр Березин

Нарастающий в последние десятки лет пластиковый кризис многие годы пытались решить наращиванием вторичной переработки пластика. Ученые выяснили, что такие переработанные полимеры негативно повлияли на развитие подопытных животных.

Сегодня, 07:43
Андрей Папиш

Крупнейшее в мире озеро, Каспийское море, давно теряет свой объем по разным причинам, специалисты указывают на перемены климата как глобального, так и регионального. Российские океанологи недавно обнаружили на севере Каспия новый остров, очередное подтверждение обмеления моря. Naked Science связался с учеными, открывшими участок суши, и выяснил подробности.

17 июня
Адель Романенкова

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

5 июня
Александр Березин

Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.

19 июня
ЮФУ

В ЮФУ придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка. Исследователи искусственного интеллекта из МИИ ИМ ЮФУ предлагают использовать интеллектуальные языковые игры, как пример — заставлять ИИ отвечать на вопросы из архива телевикторины «Что? Где? Когда?» и «Своей игры». Инициативу прокомментировал опытный игрок.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно