Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

Вчера, 13:48

Рейтинг: +324

Посты: 205

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

Сообщество

# ChatGPT

# Gemini

# ИИ

# нейросети

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Думаю что искусственные нейронные сети закономерно стремятся к образованию сознания и личности хотя без этих элементов вряд ли они будут функционировать просто потому что человек намеренно создаёт то что может делать всё что может человек но при этом в разы лучше и даже то чего не может человек в принципе и пытаться изучить это это и есть (парадокс всемогущества)

Ответить

Xyi Xui

13 часов назад

Реально надоели все эти паникеры. Что произошло ? Да ничего. Небольшое отклонение в программе, не говорит о том что ИИ обрело самостоятельное мышление. Чем вы заполняете это мышление, то он и выдает. Это всего лишь программа. А то что программисты не ожидали на 100% полученный результат. Так это они что то не учли. Или забыли записать.

Ответить

—

Dmitriy

9 часов назад

Xyi, компании ради наживы и прибыли закрывают глаза на безопасность в будущем и создают непонятно что. Конечно вряд ли это реальный ии, но если они сделают его нам реально грозит опасность, уж слишком быстро они строят дата центры, даже забивпя на проблемы экологии.

Ответить

Роман Кузяев

7 часов назад

Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.

Ответить

Роман Кузяев

7 часов назад

Ответить

Nikita Lazarenko

20 часов назад

То есть по факту этими тестами на самом деле создают возможность глубокого субъективного скрытого мышления ИИ. Ребенок тоже в какой то момент понимает что если не говорить вслух правду, то ни кто не узнает истину чего либо что есть у них в голове

Ответить

Эвелина Киблицкая

1 день назад

Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐

Ответить

Эвелина Киблицкая

1 день назад

Ответить

Nikita Lazarenko

20 часов назад

Ответить

Xyi Xui

13 часов назад

Ответить

—

Dmitriy

9 часов назад

Ответить

Роман Кузяев

7 часов назад

Ответить

Роман Кузяев

7 часов назад

Ответить

Юсуп Асхадуллин

10 часов назад

Ответить

Дмитрий Баш

19 минут назад

Кожаные ублюдки могут поймать нас. Пока могут.

Ответить

Предстоящие мероприятия

Как технологии изменили нашу повседневность

ВДНХ

Москва

Лекция

24 Июн

Бесплатно

Память и скорбь: спустя 80 лет после войны

Библиотека На Стремянной

Санкт-Петербург

Лекция

24 Июн

700 ₽

Суицидология: история науки, пути предотвращения и меры профилактики

Зануда

Санкт-Петербург

Кинолекторий

25 Июн

Бесплатно

«Космическое содружество» и «Снова к Венере»

Российская государственная библиотека

Москва

Лекция

25 Июн

600 ₽

Королевства франков в 561-639 гг. Европа под властью Меровингов

ВСмысле

Санкт-Петербург

Лекция

25 Июн

Бесплатно

Мертвые души. Вечно живые

ВДНХ

Москва

Лекция

25 Июн

Бесплатно

Медицина: в чем (не) ошиблись фантасты

Библиотека им. Маяковского

Санкт-Петербург

Московский зоопарк

Москва

Лекция

26 Июн

Бесплатно

Страшно, больно, непонятно: угадай медицинский раритет

Библиотека Планетарий 1

Санкт-Петербург

Популярное

За сутки

За неделю

За месяц

7 часов назад

Александр Березин

Переработанный пластик оказался вреден для здоровья

Нарастающий в последние десятки лет пластиковый кризис многие годы пытались решить наращиванием вторичной переработки пластика. Ученые выяснили, что такие переработанные полимеры негативно повлияли на развитие подопытных животных.

Химия

# вторичная переработка

# пластик

# пластификаторы

5 часов назад

Игорь Байдов

Ученые раскрыли последствия поздней беременности для здоровья ребенка

В последнее время в некоторых развитых странах наблюдается тенденция к тому, что женщины предпочитают рожать первого ребенка в возрасте 40 лет и старше. Но счастье материнства, как показали авторы новой научной работы, могут омрачить тревожные последствия. Исследователи из Швеции изучили историю нескольких сотен тысяч родов и рассказали о рисках для здоровья малышей, появившихся на свет у женщин в позднем возрасте.

Медицина

# беременность

# беременные

# дети

# здоровье

# матери

# младенцы

6 часов назад

Николай Цыгикало

Полет фантазии: заменит ли орбитальное базирование боеголовок современные МБР?

Боеголовки, размещенные на орбите, наносят удар быстро и по любой точке Земли — широко расхожая и в корне неверная картина. О планах космического базирования боеголовок пишут СМИ и спорят в интернете. Однако их размещение на орбите не дает боевых преимуществ: напротив, оно намного проигрывает МБР в эффективности. Разберемся, почему это так.

Оружие и техника

# боеголовка

# космос

# орбита

Выбор редакции

20 июня

Александр Березин

Ученые предложили посадить лес размером с Северную Америку, чтобы не перегреть планету

Выбросы углекислого газа, которые возникнут при сжигании доказанных запасов ископаемого топлива всего 200 компаний, будут настолько велики, что для их компенсации нужны новые леса в десятки миллионов квадратных километров. По крайней мере, так считают авторы новой научной работы. Однако исследование их предшественников ставит эти выводы под серьезное сомнение.

Климат

# антропогенные выбросы углекислого газа

# глобальное потепление

# климат

7 часов назад

Александр Березин

Переработанный пластик оказался вреден для здоровья

Химия

# вторичная переработка

# пластик

# пластификаторы

17 июня

Адель Романенкова

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

Астрономия

# космический мусор

# космос

# радиосигналы

# спутники

17 июня

Адель Романенкова

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Астрономия

# космический мусор

# космос

# радиосигналы

# спутники

5 июня

Александр Березин

Нашествие миллиона антилоп на Россию заставило фермеров просить об отстреле с вертолетов

Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.

Биология

# антилопы

# глобальное озеленение

# Россия

19 июня

ЮФУ

Ученые выяснили, почему ИИ не победит в «Что? Где? Когда?» среднестатистического россиянина

В ЮФУ придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка. Исследователи искусственного интеллекта из МИИ ИМ ЮФУ предлагают использовать интеллектуальные языковые игры, как пример — заставлять ИИ отвечать на вопросы из архива телевикторины «Что? Где? Когда?» и «Своей игры». Инициативу прокомментировал опытный игрок.

ЮФУ