Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.
Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»
Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.
Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.
Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.
По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.
После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.
В 16.18 по московскому времени 28 декабря 2025 года с единственного гражданского космодрома на территории России произошел 17-й по счету космический запуск этого года. Перед ним на космодроме побывал корреспондент нашего издания, и вскоре мы выпустим репортаж о том, чем живет самый холодный космодром в мире.
Палеонтологи описали крупнейшее в мире скопление следов динозавров: более 16 000 вмятин на площади 7500 квадратных метров. Ученые считают, что эта территория была не просто местом случайных прогулок, а оживленной трассой, где динозавры организованно мигрировали вдоль берега древнего озера.
Биологи опровергли представление о примитивности органов чувств у древнейших бесчелюстных, обнаружив у миксин огромный арсенал рецепторов для поиска добычи. Исследователи доказали, что способность различать сложные запахи и аминокислоты появилась у общего предка позвоночных задолго до возникновения челюстей.
После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.
В 16.18 по московскому времени 28 декабря 2025 года с единственного гражданского космодрома на территории России произошел 17-й по счету космический запуск этого года. Перед ним на космодроме побывал корреспондент нашего издания, и вскоре мы выпустим репортаж о том, чем живет самый холодный космодром в мире.
С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.
На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.
Среди самых интригующих открытий космического телескопа «Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии