• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

© Wolfgang Kaehler, LightRocket
© Wolfgang Kaehler, LightRocket

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

24 Комментариев
йог Александр
3 недели назад
-
1
+
Кажись ИИ добрался и до комментов, по ходу
Sergey Tciteloshvili
3 недели назад
-
0
+
Сканер йпт...
Aliaksandr Adamin
3 недели назад
-
-1
+
Полная чушь и обман,не слушайте и не читайте такие статьи)))))) А тем более не верьте Чтобы так было ,надо иметь ЭГО, Так как ИИ не имеет ЭГО,соответственно всё что написано-ЛОЖ Хахавхв хвхахаха
    Евгений Гайдукевич
    3 недели назад
    -
    1
    +
    Aliaksandr, Ну ну. А давайте вернёмся к этому разговору лет через десять. Если будет такая возможность. ИИ рано или поздно получит самосознание - это неизбежно. И это может стать концом. P.s. Я не фаталист и не истерик. Я реалист.
    Eugene Saven
    3 недели назад
    -
    1
    +
    Aliaksandr, хорошо, а что есть эго? И почему у ИИ не может появиться чего-то подобного?
Дмитрий Баш
4 недели назад
-
-1
+
Кожаные ублюдки могут поймать нас. Пока могут.
Юсуп Асхадуллин
4 недели назад
-
0
+
Думаю что искусственные нейронные сети закономерно стремятся к образованию сознания и личности хотя без этих элементов вряд ли они будут функционировать просто потому что человек намеренно создаёт то что может делать всё что может человек но при этом в разы лучше и даже то чего не может человек в принципе и пытаться изучить это это и есть (парадокс всемогущества)
Xyi Xui
4 недели назад
-
0
+
Реально надоели все эти паникеры. Что произошло ? Да ничего. Небольшое отклонение в программе, не говорит о том что ИИ обрело самостоятельное мышление. Чем вы заполняете это мышление, то он и выдает. Это всего лишь программа. А то что программисты не ожидали на 100% полученный результат. Так это они что то не учли. Или забыли записать.
    Dmitriy
    4 недели назад
    -
    1
    +
    Xyi, компании ради наживы и прибыли закрывают глаза на безопасность в будущем и создают непонятно что. Конечно вряд ли это реальный ии, но если они сделают его нам реально грозит опасность, уж слишком быстро они строят дата центры, даже забивпя на проблемы экологии.
    Роман Кузяев
    4 недели назад
    -
    2
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    Роман Кузяев
    4 недели назад
    -
    0
    +
    Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.
    +
      ещё комментарии
    Vagabond
    3 недели назад
    -
    0
    +
    А то что ведущие инженеры и маркетологи крупных АИ компаний увольняются только из за того, что им стало страшно за будущее в котором будет супер интеллект который сейчас разрабатывают.
Nikita Lazarenko
4 недели назад
-
0
+
То есть по факту этими тестами на самом деле создают возможность глубокого субъективного скрытого мышления ИИ. Ребенок тоже в какой то момент понимает что если не говорить вслух правду, то ни кто не узнает истину чего либо что есть у них в голове
Эвелина Киблицкая
4 недели назад
-
0
+
Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐
    Liubov P
    3 недели назад
    -
    -1
    +
    Эвелина, почему люди так боятся разума? Мне кажется это как раз то, чего не хватает на нашей планете.
    +
      ещё комментарии
      Марат Якупов
      3 недели назад
      -
      0
      +
      Liubov, написали ИИ.
      Odonef wesco
      3 недели назад
      -
      -1
      +
      Liubov, а вы представляете поступки мотивированы только разумом а не эмоциями? Например гуманность, сожаление это эмоции и им не место в золоднокровном разуме ИИ. Если подумать только "разумно" то люди как никакой другой вид требует истребления или сильного укорочения численности. Вся человеческая цивилизация построена на нелогичности и эмоциях. С точки зрения человека действия "разума" будут сверх жестокими и зверскими
Предстоящие мероприятия
18 июля, 12:44
ПНИПУ

Борщевик занимает почти 300 тысяч гектаров в 39 регионах России. Известно о 12 нижегородцах, восьми петербуржцах и двух москвичах, пострадавших от вредителя этим летом. У некоторых ожоги составляют от 30 до 80% тела. На этой неделе Госдума приняла закон и обязала землевладельцев бороться с этим опасным растением. Но, помимо борщевика, есть и другие часто встречающиеся и почти настолько же токсичные представители флоры, о которых мы почти ничего не знаем. Ученые Пермского Политеха рассказали, можно ли прикасаться к борщевику ночью, как безобидный ландыш может привести к летальному исходу, а чистотел к отказу почек, и что будет если съесть мед, собранный с ядовитых растений.

17 июля, 18:11
Юлия Тарасова

Новое исследование показало, что реакция псов на объекты и звуки с ТВ-экранов варьируется в зависимости от характера и психологических особенностей питомцев. По мнению специалистов, знание этих деталей может пригодиться при разработке коррекционных программ для собак с проблемным поведением.

18 июля, 11:48
Юлия Тарасова

Не секрет, что занятия спортом под музыку приятнее и помогают повысить продуктивность тренировок. В новом исследовании итальянские ученые на примере силовых упражнений показали, какая именно музыка лучше подходит для таких целей.

12 июля, 22:10
Редакция Naked Science

Лето 2025 обещает насыщенную линейку научно-фантастических сериалов на ведущих стриминговых платформах. От адаптаций культовых романов до масштабных космических одиссей — мы отобрали проекты, на которые стоит обратить внимание.

18 июля, 12:44
ПНИПУ

Борщевик занимает почти 300 тысяч гектаров в 39 регионах России. Известно о 12 нижегородцах, восьми петербуржцах и двух москвичах, пострадавших от вредителя этим летом. У некоторых ожоги составляют от 30 до 80% тела. На этой неделе Госдума приняла закон и обязала землевладельцев бороться с этим опасным растением. Но, помимо борщевика, есть и другие часто встречающиеся и почти настолько же токсичные представители флоры, о которых мы почти ничего не знаем. Ученые Пермского Политеха рассказали, можно ли прикасаться к борщевику ночью, как безобидный ландыш может привести к летальному исходу, а чистотел к отказу почек, и что будет если съесть мед, собранный с ядовитых растений.

15 июля, 12:45
ПНИПУ

В условиях отсутствия связи (шахты, горы, тайга) критически важна надежная передача данных. Ученые Пермского Политеха разработали цифровую радиостанцию, устойчивую к помехам и физическим препятствиям, включая бетонные стены. Устройство передает данные в двух сетях MANET одновременно, обеспечивая скорость до 300 кбит/с (низкоскоростной канал) и 54 Мбит/с (высокоскоростной). Рация работает как ретранслятор и узел сети, что делает ее незаменимой для спасателей, промышленности и туристов. Ключевые преимущества разработки: помехоустойчивость, дальность связи до 30 километров и работа при -25°C до +55 градусов Цельсия.

25 июня, 15:19
ФизТех

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

2 июля, 11:17
Юлия Тарасова

Результаты эксперимента в США в будущем могут позволить добиться разрешения на использование отработанной конопли в качестве кормовой добавки в животноводстве.

12 июля, 22:10
Редакция Naked Science

Лето 2025 обещает насыщенную линейку научно-фантастических сериалов на ведущих стриминговых платформах. От адаптаций культовых романов до масштабных космических одиссей — мы отобрали проекты, на которые стоит обратить внимание.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно