Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.
Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»
Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.
Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.
Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.
По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.
Выбросы углекислого газа, которые возникнут при сжигании доказанных запасов ископаемого топлива всего 200 компаний, будут настолько велики, что для их компенсации нужны новые леса в десятки миллионов квадратных километров. По крайней мере, так считают авторы новой научной работы. Однако исследование их предшественников ставит эти выводы под серьезное сомнение.
Цветковые, или покрытосеменные, растения окружают нас со всех сторон. Мы видим их на газонах, клумбах, в горшках на окне, каждый день едим и носим в виде одежды. Все остальные отделы растений теряются на этом фоне. Более того, приматы (стало быть и люди) просто не могли бы возникнуть, не случись «цветковая революция» — появление этих чрезвычайно успешных растений. Однако как, когда и где распустился первый на Земле цветок? Тайна не дает покоя биологам со времен Дарвина. Naked Science разбирается с новыми находками, которые делают ответ на «проклятый вопрос» палеонтологии близким как никогда.
В НовГУ разработали VR-приложение для оказания первой медицинской помощи. С его помощью научиться оказывать действия по спасению пострадавших смогут не только будущие врачи, но и обычные люди — взрослые и дети.
Международная команда исследователей с участием ученых из НИУ ВШЭ экспериментально показала, что люди, страдающие биполярным расстройством, считают мир более нестабильным, чем он есть на самом деле, и из-за этого чаще принимают нерациональные решения. Ученые предполагают, что полученные результаты позволят в будущем разработать более точные методы диагностики и терапии биполярного аффективного расстройства.
Создание природных лекарственных средств — важное направление в современной науке, поскольку такие препараты имеют меньше побочных эффектов и могут стать дополнением или даже альтернативой для синтетических антибиотиков, которые теряют эффективность из-за того, что бактерии постепенно развивают к ним устойчивость. В современной науке внимание обычно уделяется корням лопуха, тогда как его листья остаются менее изученными. Ученые Пермского Политеха исследовали биологическую активность настоя из листьев лопуха и выяснили, что он обладает антибактериальными свойствами, а также снижает уровень глюкозы в крови. Эти открытия могут стать основой для создания новых природных лекарственных средств.
Ученые из Сеченовского Университета совместно с коллегами из других научно-исследовательских центров разработали новый подход к восстановлению десны, объединив тканеинженерные технологии и генную терапию. Они использовали коллагеновую матрицу и плазмиду pCMV-VEGF165, стимулирующую рост сосудов. Такая комбинация обеспечила в экспериментах на животных выраженное утолщение слизистой и активное формирование сосудистой сети. Новый подход к увеличению объема мягких тканей ученые планируют использовать при воссоздании тканей пародонтального комплекса в рамках мегапроекта «Орган-на-заказ».
Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.
Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.
В ЮФУ придумали новый остроумный способ тестировать ИИ на способность работать в реальных ситуациях использования русского языка. Исследователи искусственного интеллекта из МИИ ИМ ЮФУ предлагают использовать интеллектуальные языковые игры, как пример — заставлять ИИ отвечать на вопросы из архива телевикторины «Что? Где? Когда?» и «Своей игры». Инициативу прокомментировал опытный игрок.

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Комментарии