• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

© Wolfgang Kaehler, LightRocket
© Wolfgang Kaehler, LightRocket

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

21 Комментариев
Кажись ИИ добрался и до комментов, по ходу
-
0
+
Сканер йпт...
-
-1
+
Полная чушь и обман,не слушайте и не читайте такие статьи)))))) А тем более не верьте Чтобы так было ,надо иметь ЭГО, Так как ИИ не имеет ЭГО,соответственно всё что написано-ЛОЖ Хахавхв хвхахаха
-
-1
+
Кожаные ублюдки могут поймать нас. Пока могут.
Думаю что искусственные нейронные сети закономерно стремятся к образованию сознания и личности хотя без этих элементов вряд ли они будут функционировать просто потому что человек намеренно создаёт то что может делать всё что может человек но при этом в разы лучше и даже то чего не может человек в принципе и пытаться изучить это это и есть (парадокс всемогущества)
Xyi Xui
23.06.2025
-
0
+
Реально надоели все эти паникеры. Что произошло ? Да ничего. Небольшое отклонение в программе, не говорит о том что ИИ обрело самостоятельное мышление. Чем вы заполняете это мышление, то он и выдает. Это всего лишь программа. А то что программисты не ожидали на 100% полученный результат. Так это они что то не учли. Или забыли записать.
    Dmitriy
    23.06.2025
    -
    1
    +
    Xyi, компании ради наживы и прибыли закрывают глаза на безопасность в будущем и создают непонятно что. Конечно вряд ли это реальный ии, но если они сделают его нам реально грозит опасность, уж слишком быстро они строят дата центры, даже забивпя на проблемы экологии.
    -
    2
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    -
    0
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    +
      ещё комментарии
    Vagabond
    24.06.2025
    -
    0
    +
    А то что ведущие инженеры и маркетологи крупных АИ компаний увольняются только из за того, что им стало страшно за будущее в котором будет супер интеллект который сейчас разрабатывают.
-
0
+
То есть по факту этими тестами на самом деле создают возможность глубокого субъективного скрытого мышления ИИ. Ребенок тоже в какой то момент понимает что если не говорить вслух правду, то ни кто не узнает истину чего либо что есть у них в голове
Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐
    Liubov P
    25.06.2025
    -
    -1
    +
    Эвелина, почему люди так боятся разума? Мне кажется это как раз то, чего не хватает на нашей планете.
    +
      ещё комментарии
      -
      0
      +
      Liubov, написали ИИ.
      Odonef wesco
      27.06.2025
      -
      -1
      +
      Liubov, а вы представляете поступки мотивированы только разумом а не эмоциями? Например гуманность, сожаление это эмоции и им не место в золоднокровном разуме ИИ. Если подумать только "разумно" то люди как никакой другой вид требует истребления или сильного укорочения численности. Вся человеческая цивилизация построена на нелогичности и эмоциях. С точки зрения человека действия "разума" будут сверх жестокими и зверскими
Предстоящие мероприятия
1 июля, 11:54
Марк Чернов

Древнеримские инженеры проложили колоссальную сеть дорог через Европу, Северную Африку и Ближний Восток, многие участки которой до сих пор поражают безупречной прямолинейностью. Секрет строительства заключался в использовании трех особых геодезических инструментов, с помощью которых разбивали местность на ровные отрезки и размечали трассы.

3 июля, 12:20
Татьяна Зайцева

Японские исследователи выловили у берегов Окинавы пластиковую бутылку с узким горлышком, внутри которой сидел большой живой краб. В итоге ученые смогли найти ответы на несколько возникших в связи с этой находкой вопросов: как краб попал в бутылку, сколько там находился и как ему удалось выжить?

1 июля, 08:40
Марк Чернов

В вакууме космоса два металлических предмета, прижатые друг к другу, могут спонтанно свариться без какого-либо нагрева. Из-за отсутствия кислорода на поверхностях деталей разрушается защитный слой, в результате чего свободные электроны начинают мгновенно перемещаться между ними и соединяют два элемента в один монолит.

1 июля, 11:54
Марк Чернов

Древнеримские инженеры проложили колоссальную сеть дорог через Европу, Северную Африку и Ближний Восток, многие участки которой до сих пор поражают безупречной прямолинейностью. Секрет строительства заключался в использовании трех особых геодезических инструментов, с помощью которых разбивали местность на ровные отрезки и размечали трассы.

30 июня, 16:52
Понамарева Валерия

Самый маленький дневной хищник Африки впервые попал под наблюдение с помощью GPS-трекеров. Ученые выяснили, что для выкармливания птенцов ему нужен участок почти в 14 раз меньше, чем у степной пустельги — ближайшего «рекордсмена» среди изученных птиц.

28 июня, 16:58
Alexander Baulin

Терраформировать Марс — то есть превратить в мир, где можно жить без защитных куполов — мечта человечества с того момента, как стало понятно, что это холодная планета с призрачной бескислородной атмосферой. Сейчас главный хедлайнер ее освоения — Илон Маск, компания SpaceX которого планирует первые полеты туда уже в 2028 году. Многие энтузиасты вспоминают слова Маска 14-летней давности: Красную планету надо лишь «подремонтировать», чтобы ходить без скафандра. Но между полетом и прогулками по городу-саду на Марсе лежит огромная пропасть. Пару лет назад Naked Science рассматривал положительный сценарий терраформирования. Пришло время подсчитать, сколько же лет и ресурсов потребуется.

10 июня, 11:51
Александр Березин

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

25 июня, 16:20
Любовь С.

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

25 июня, 15:09
Марк Чернов

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Ошибка авторизации
По закону на российских сайтах теперь нельзя авторизовываться с помощью иностранных сервисов. Используйте другой способ или восстановите доступ по почте.
Восстановить доступ
Войти по-другому
Вход через почту
Введите привязанную к соцсети почту, чтобы восстановить доступ или получить одноразовую ссылку для входа на сайт.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно