• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

© Wolfgang Kaehler, LightRocket
© Wolfgang Kaehler, LightRocket

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

21 Комментариев
Кажись ИИ добрался и до комментов, по ходу
-
0
+
Сканер йпт...
-
-1
+
Полная чушь и обман,не слушайте и не читайте такие статьи)))))) А тем более не верьте Чтобы так было ,надо иметь ЭГО, Так как ИИ не имеет ЭГО,соответственно всё что написано-ЛОЖ Хахавхв хвхахаха
-
-1
+
Кожаные ублюдки могут поймать нас. Пока могут.
Думаю что искусственные нейронные сети закономерно стремятся к образованию сознания и личности хотя без этих элементов вряд ли они будут функционировать просто потому что человек намеренно создаёт то что может делать всё что может человек но при этом в разы лучше и даже то чего не может человек в принципе и пытаться изучить это это и есть (парадокс всемогущества)
Xyi Xui
23.06.2025
-
0
+
Реально надоели все эти паникеры. Что произошло ? Да ничего. Небольшое отклонение в программе, не говорит о том что ИИ обрело самостоятельное мышление. Чем вы заполняете это мышление, то он и выдает. Это всего лишь программа. А то что программисты не ожидали на 100% полученный результат. Так это они что то не учли. Или забыли записать.
    Dmitriy
    23.06.2025
    -
    1
    +
    Xyi, компании ради наживы и прибыли закрывают глаза на безопасность в будущем и создают непонятно что. Конечно вряд ли это реальный ии, но если они сделают его нам реально грозит опасность, уж слишком быстро они строят дата центры, даже забивпя на проблемы экологии.
    -
    2
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    -
    0
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    +
      ещё комментарии
    Vagabond
    24.06.2025
    -
    0
    +
    А то что ведущие инженеры и маркетологи крупных АИ компаний увольняются только из за того, что им стало страшно за будущее в котором будет супер интеллект который сейчас разрабатывают.
-
0
+
То есть по факту этими тестами на самом деле создают возможность глубокого субъективного скрытого мышления ИИ. Ребенок тоже в какой то момент понимает что если не говорить вслух правду, то ни кто не узнает истину чего либо что есть у них в голове
Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐
    Liubov P
    25.06.2025
    -
    -1
    +
    Эвелина, почему люди так боятся разума? Мне кажется это как раз то, чего не хватает на нашей планете.
    +
      ещё комментарии
      -
      0
      +
      Liubov, написали ИИ.
      Odonef wesco
      27.06.2025
      -
      -1
      +
      Liubov, а вы представляете поступки мотивированы только разумом а не эмоциями? Например гуманность, сожаление это эмоции и им не место в золоднокровном разуме ИИ. Если подумать только "разумно" то люди как никакой другой вид требует истребления или сильного укорочения численности. Вся человеческая цивилизация построена на нелогичности и эмоциях. С точки зрения человека действия "разума" будут сверх жестокими и зверскими
Предстоящие мероприятия
4 марта, 13:56
Илья Гриднев

Биологи получили прямые доказательства поедания косатками представителей собственного вида. Оторванные спинные плавники со следами больших зубов указали на охоту плотоядных китообразных на слабую соседнюю популяцию. Угроза смертельных нападений заставила рыбоядные группы косаток создавать неразлучные семейные кланы.

4 марта, 14:46
Адель Романова

Исследователи смоделировали последствия распыления в марсианской атмосфере аэрозолей для создания искусственного парникового эффекта. Выяснилось, что это может привести к парадоксальному результату: вместо ожидаемого более комфортного климата будущая колония на «нагретой» Красной планете окажется посреди такого же лютого холода и притом окружена обезвоженным грунтом.

5 марта, 09:47
Игорь Байдов

За право называть себя родиной легендарных скрипок Страдивари долгие годы спорили несколько европейских стран. Исследователи из Швейцарии, Франции, Словении заявляли, что именно их леса послужили материалом для инструментов с неповторимым звучанием. Теперь история получила новый поворот. Международная команда изучила годичные кольца почти на 300 скрипках итальянского мастера и выяснила, в каком конкретно места Страдивари брал материал для своих лучших творений.

3 марта, 14:06
Александр Березин

В ноябре 2025 года при взлете российской ракеты с Байконура к МКС с существенной высоты упала кабина обслуживания 8У216. Поскольку в 2010-х годах из экономии средств у нас отказались от дублирования стартовых площадок, это создало ситуацию временной невозможности пилотируемых полетов. Теперь, всего через три месяца после происшествия, «Роскосмос» смог решить проблему, поставив запасную кабину обслуживания, найденную на складах Минобороны. Весенние пуски к МКС, запланированные ранее, теперь имеют шансы пройти в срок.

28 февраля, 16:50
Игорь Байдов

В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.

28 февраля, 11:53
Андрей Серегин

Разное отношение домашних животных к хозяевам давно стало предметом споров, обсуждений и шуток. Ученые из Венгрии показали, что собаки демонстрируют по отношению к человеку уровень альтруизма, сходный с детским, тогда как кошки ищут в партнерстве с человеком прежде всего свою выгоду.

12 февраля, 07:52
Адель Романова

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

12 февраля, 08:19
Полина Меньшова

«Любить лишь можно только раз», — писал поэт Сергей Есенин, а герои культовых сериалов приходили к выводу, что «настоящая» влюбленность случается в жизни максимум дважды. Однако ни один из этих тезисов не подкреплен научными данными. Американские исследователи подошли к вопросу иначе: опросили более 10 тысяч человек и вывели среднее число сильных влюбленностей, возможных в течение жизни.

3 марта, 14:06
Александр Березин

В ноябре 2025 года при взлете российской ракеты с Байконура к МКС с существенной высоты упала кабина обслуживания 8У216. Поскольку в 2010-х годах из экономии средств у нас отказались от дублирования стартовых площадок, это создало ситуацию временной невозможности пилотируемых полетов. Теперь, всего через три месяца после происшествия, «Роскосмос» смог решить проблему, поставив запасную кабину обслуживания, найденную на складах Минобороны. Весенние пуски к МКС, запланированные ранее, теперь имеют шансы пройти в срок.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно