Хотите получать важные новости науки?
Подписаться
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

© Wolfgang Kaehler, LightRocket
© Wolfgang Kaehler, LightRocket

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий
Эвелина Киблицкая
5 часов назад
-
0
+
Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐
Предстоящие мероприятия
Позавчера, 10:57
Александр Березин

Выбросы углекислого газа, которые возникнут при сжигании доказанных запасов ископаемого топлива всего 200 компаний, будут настолько велики, что для их компенсации нужны новые леса в десятки миллионов квадратных километров. По крайней мере, так считают авторы новой научной работы. Однако исследование их предшественников ставит эти выводы под серьезное сомнение.

Вчера, 21:06
Михаил Орлов

Цветковые, или покрытосеменные, растения окружают нас со всех сторон. Мы видим их на газонах, клумбах, в горшках на окне, каждый день едим и носим в виде одежды. Все остальные отделы растений теряются на этом фоне. Более того, приматы (стало быть и люди) просто не могли бы возникнуть, не случись «цветковая революция» — появление этих чрезвычайно успешных растений. Однако как, когда и где распустился первый на Земле цветок? Тайна не дает покоя биологам со времен Дарвина. Naked Science разбирается с новыми находками, которые делают ответ на «проклятый вопрос» палеонтологии близким как никогда.

Позавчера, 10:47
НовГУ

В НовГУ разработали VR-приложение для оказания первой медицинской помощи. С его помощью научиться оказывать действия по спасению пострадавших смогут не только будущие врачи, но и обычные люди — взрослые и дети.

17 июня
НИУ ВШЭ

Международная команда исследователей с участием ученых из НИУ ВШЭ экспериментально показала, что люди, страдающие биполярным расстройством, считают мир более нестабильным, чем он есть на самом деле, и из-за этого чаще принимают нерациональные решения. Ученые предполагают, что полученные результаты позволят в будущем разработать более точные методы диагностики и терапии биполярного аффективного расстройства.

17 июня
ПНИПУ

Создание природных лекарственных средств — важное направление в современной науке, поскольку такие препараты имеют меньше побочных эффектов и могут стать дополнением или даже альтернативой для синтетических антибиотиков, которые теряют эффективность из-за того, что бактерии постепенно развивают к ним устойчивость. В современной науке внимание обычно уделяется корням лопуха, тогда как его листья остаются менее изученными. Ученые Пермского Политеха исследовали биологическую активность настоя из листьев лопуха и выяснили, что он обладает антибактериальными свойствами, а также снижает уровень глюкозы в крови. Эти открытия могут стать основой для создания новых природных лекарственных средств.

17 июня
Сеченовский Университет

Ученые из Сеченовского Университета совместно с коллегами из других научно-исследовательских центров разработали новый подход к восстановлению десны, объединив тканеинженерные технологии и генную терапию. Они использовали коллагеновую матрицу и плазмиду pCMV-VEGF165, стимулирующую рост сосудов. Такая комбинация обеспечила в экспериментах на животных выраженное утолщение слизистой и активное формирование сосудистой сети. Новый подход к увеличению объема мягких тканей ученые планируют использовать при воссоздании тканей пародонтального комплекса в рамках мегапроекта «Орган-на-заказ».

17 июня
Адель Романенкова

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

5 июня
Александр Березин

Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.

19 июня
ЮФУ

В ЮФУ придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка. Исследователи искусственного интеллекта из МИИ ИМ ЮФУ предлагают использовать интеллектуальные языковые игры, как пример — заставлять ИИ отвечать на вопросы из архива телевикторины «Что? Где? Когда?» и «Своей игры». Инициативу прокомментировал опытный игрок.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно