• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

© Wolfgang Kaehler, LightRocket
© Wolfgang Kaehler, LightRocket

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

21 Комментариев
Кажись ИИ добрался и до комментов, по ходу
-
0
+
Сканер йпт...
-
-1
+
Полная чушь и обман,не слушайте и не читайте такие статьи)))))) А тем более не верьте Чтобы так было ,надо иметь ЭГО, Так как ИИ не имеет ЭГО,соответственно всё что написано-ЛОЖ Хахавхв хвхахаха
-
-1
+
Кожаные ублюдки могут поймать нас. Пока могут.
Думаю что искусственные нейронные сети закономерно стремятся к образованию сознания и личности хотя без этих элементов вряд ли они будут функционировать просто потому что человек намеренно создаёт то что может делать всё что может человек но при этом в разы лучше и даже то чего не может человек в принципе и пытаться изучить это это и есть (парадокс всемогущества)
Xyi Xui
23.06.2025
-
0
+
Реально надоели все эти паникеры. Что произошло ? Да ничего. Небольшое отклонение в программе, не говорит о том что ИИ обрело самостоятельное мышление. Чем вы заполняете это мышление, то он и выдает. Это всего лишь программа. А то что программисты не ожидали на 100% полученный результат. Так это они что то не учли. Или забыли записать.
    Dmitriy
    23.06.2025
    -
    1
    +
    Xyi, компании ради наживы и прибыли закрывают глаза на безопасность в будущем и создают непонятно что. Конечно вряд ли это реальный ии, но если они сделают его нам реально грозит опасность, уж слишком быстро они строят дата центры, даже забивпя на проблемы экологии.
    -
    2
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    -
    0
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    +
      ещё комментарии
    Vagabond
    24.06.2025
    -
    0
    +
    А то что ведущие инженеры и маркетологи крупных АИ компаний увольняются только из за того, что им стало страшно за будущее в котором будет супер интеллект который сейчас разрабатывают.
-
0
+
То есть по факту этими тестами на самом деле создают возможность глубокого субъективного скрытого мышления ИИ. Ребенок тоже в какой то момент понимает что если не говорить вслух правду, то ни кто не узнает истину чего либо что есть у них в голове
Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐
    Liubov P
    25.06.2025
    -
    -1
    +
    Эвелина, почему люди так боятся разума? Мне кажется это как раз то, чего не хватает на нашей планете.
    +
      ещё комментарии
      -
      0
      +
      Liubov, написали ИИ.
      Odonef wesco
      27.06.2025
      -
      -1
      +
      Liubov, а вы представляете поступки мотивированы только разумом а не эмоциями? Например гуманность, сожаление это эмоции и им не место в золоднокровном разуме ИИ. Если подумать только "разумно" то люди как никакой другой вид требует истребления или сильного укорочения численности. Вся человеческая цивилизация построена на нелогичности и эмоциях. С точки зрения человека действия "разума" будут сверх жестокими и зверскими
Предстоящие мероприятия
17 мая, 10:35
Игорь Байдов

В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.

18 мая, 09:10
Лена

Во всем мире во всех человеческих культурах около 90% людей пользуются преимущественно правой рукой. Такое поразительное единство практически всего человечества не имеет аналогов среди приматов и до сих пор остается эволюционной загадкой. Ученые проанализировали данные о более чем двух тысячах человекообразных обезьянах и выяснили, когда и почему праворукость стала популяционной тенденцией.

19 мая, 09:08
ИИМК РАН

Команда археологов в составе младшего научного сотрудника Отдела славяно-финской археологии ИИМК РАН Натальи Григорьевой и археозоологов Института экологии растений и животных УрО РАН Ольги Бачуры и Татьяны Лобановой завершила комплексное исследование коллекции костей животных из раскопок поселения на Земляном городище Старой Ладоги (Ленинградская область). В ходе работы удалось проследить изменения системы хозяйства жителей на протяжении почти 10 веков.

17 мая, 10:35
Игорь Байдов

В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.

17 мая, 10:00
Evgenia Vavilova

При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.

18 мая, 09:10
Лена

Во всем мире во всех человеческих культурах около 90% людей пользуются преимущественно правой рукой. Такое поразительное единство практически всего человечества не имеет аналогов среди приматов и до сих пор остается эволюционной загадкой. Ученые проанализировали данные о более чем двух тысячах человекообразных обезьянах и выяснили, когда и почему праворукость стала популяционной тенденцией.

23 апреля, 18:34
Александр Березин

В последнее время пуски с российских северных космодромов осуществляют без предварительного уведомления, чего не было в прошлом. Вероятно, дело в недавно упомянутых главой «Роскосмоса» атаках на Плесецк во время пуска. Сегодняшний запуск обеспечил вывод на орбиту космических аппаратов военного назначения.

17 мая, 10:35
Игорь Байдов

В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.

21 апреля, 20:03
Evgenia Vavilova

Химические связи в материале, из которого сделана электроника, разрываются не из-за накопительного износа от протекания тока через них, а из-за электронов с конкретной энергией.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Авторизуясь, вы даете согласие на обработку персональных данных и подтверждаете ознакомление с Политикой.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно