Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Ученые создали инструмент, с помощью которого нейросети смогут эффективнее избегать нежелательных тем
Команда исследователей из Т-Технологий и МФТИ разработала метод, позволяющий построить детальную «карту» эволюции абстрактных понятий в глубине больших языковых моделей. Этот подход, основанный на «графах потоков признаков», не только открывает «черный ящик» ИИ, делая его работу прозрачной, но и дает в руки ученых мощный инструмент для точного управления поведением нейросетей, например, для подавления нежелательных тем в генерируемом тексте.
Современные большие языковые модели остаются для своих создателей во многом загадкой. Несмотря на их впечатляющие способности, внутренние механизмы их «мышления» остаются непрозрачными. Это фундаментальная проблема, мешающая созданию по-настоящему надежного и безопасного искусственного интеллекта. Одним из прорывов в этой области стало использование разреженных автоэнкодеров (SAE) — специальных «словарей-дешифраторов», которые позволяют извлекать из сложной активности нейронов отдельные, понятные человеку концепции или «признаки», такие как «научная терминология» или «ссылки на законы физики». Однако ученые не понимали, как проследить «судьбу» одного и того же понятия по мере его продвижения через десятки слоев модели.
Задача, которую поставили перед собой исследователи, — создать «бесшовную» карту, связывающую эти разрозненные этажи и показывающую, как именно информация трансформируется в процессе обработки. Разработанный ими метод позволяет отследить, как конкретные признаки зарождаются, передаются от слоя к слою или исчезают. Для этого ученые использовали не требующий данных подход, основанный на вычислении косинусного сходства между векторами признаков, извлеченных с помощью SAE на разных уровнях модели. Их метод работает как лингвистический компаратор: он берет векторное представление одного понятия на одном слое и ищет в следующем слое наиболее похожее по направлению, тем самым выстраивая цепочку преемственности.
Коллектив ученых смог не просто сопоставить похожие признаки, но и классифицировать их происхождение. Оказалось, что концепции на первых слоях чаще возникают из механизма внимания, отвечающего за понимания контекста, а на более поздних слоях концепции чаще возникают в MLP, в которых хранятся знания модели. Создавая такие «графы потоков» для тысяч признаков, исследователи получили беспрецедентную по своей детализации картину внутренней жизни нейросети. Эта концепция наглядно проиллюстрирована в работе на примере «графа потока» для научных понятий.

Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research, аспирант МФТИ, рассказал о сути проведенной работы: «Мы создали своего рода генеалогическое древо для «мыслей» нейронной сети. Наш метод позволяет проследить всю родословную конкретной идеи внутри модели. Мы можем увидеть, как из простых признаков, отвечающих за отдельные слова на ранних слоях, рождаются более сложные семантические конструкции на средних, и как они в итоге собираются в абстрактные темы на финальных этапах. Это похоже на то, как ручейки сливаются в реки, а реки — в океан».
Ключевым результатом исследования стала демонстрация практической пользы созданных карт. Ученые показали, что, зная полную траекторию развития определенной темы, можно гораздо эффективнее управлять генерацией текста. Вместо того чтобы пытаться воздействовать на один признак на одном слое, новый подход позволяет оказывать мягкое, но уверенное воздействие на всю цепочку связанных признаков на разных уровнях. В ходе экспериментов исследователи смогли успешно подавить в генерируемом тексте тему «научных концепций и сущностей», воздействуя на найденный граф потока. Это первая в мире демонстрация такого многоуровневого управления поведением языковой модели.
Уникальность подхода заключается в его простоте и эффективности. Он не требует для анализа огромных массивов данных и сложных вычислений, опираясь лишь на веса уже обученных SAE и самой языковой модели. Это открывает дорогу к его широкому применению для анализа и интерпретации самых разных архитектур нейронных сетей.
Понимание этих потоков — это ключ к созданию более безопасного и предсказуемого искусственного интеллекта. Теперь можно не просто «дергать за одну ниточку» на одном слое, а мягко направлять целый поток связанных «мыслей». Если нужно, чтобы модель избегала определенной темы, то можно ослабить соответствующий ей поток на самых ранних стадиях его зарождения. Это гораздо эффективнее и безопаснее, чем грубое вмешательство на выходе. Практическая значимость этого открытия огромна. Оно предоставляет разработчикам и исследователям мощный инструмент для «отладки» и «тонкой настройки» языковых моделей. С его помощью можно будет выявлять и целенаправленно ослаблять нежелательные концепции, связанные с предвзятостью, токсичностью или дезинформацией, по всей цепочке их формирования. Это также открывает новые возможности для создания моделей с управляемым стилем и тематикой, что крайне востребовано в творческих и образовательных приложениях.
В будущем ученые планируют использовать разработанный метод для анализа самых крупных и современных языковых моделей, а также для исследования более сложных явлений, таких как формирование «внутренних схем рассуждений» в нейросетях. Эта работа делает важный шаг на пути от эмпирического создания искусственного интеллекта к его полноценному проектированию, основанному на глубоком понимании внутренних механизмов.
Согласно гипотезе о так называемой Еврогондване, в эпоху динозавров Европа, как часть северного суперконтинента Лавразия, еще не полностью отделилась от южного суперконтинента Гондвана и животные могли свободно мигрировать между Европой и Африкой. Однако новый анализ найденных в Венгрии костей первобытного крокодила показал, что его сходство с гондванскими видами обусловлено не близким родством, а схожим образом жизни.
Треть века назад Штаты и Мексика подписали Североамериканское соглашение о свободной торговле. Авторы новой научной работы показали, что это спровоцировало рост войн между бандами и подъем смертности среди молодых мужчин на десятки процентов — но только в тех зонах, которые были интересны картелям. Всего после подписания соглашения в Мексике было убито (оценка с учетом исчезнувших трупов) более 0,85 миллиона человек.
Новые данные показали, что удар зонда DART не только изменил орбитальный период небольшого спутника Диморфа вокруг его «родителя» Дидима, но и вызвал небольшое изменение движения всей бинарной системы вокруг Солнца. Эти результаты укрепляют уверенность ученых в том, что технология кинетического удара, при заблаговременном обнаружении опасного объекта, может помочь отклонить потенциально опасный астероид от столкновения с Землей.
Одна сторона сыплет более дорогими и сложными баллистическими ракетами, другая — относительно дешевыми крылатыми. Но при этом первая на порядок беднее второй. А что у них с технологическим уровнем для наземной войны, и почему, кстати, глава второй избегает даже самого этого слова? Попробуем разобраться в реальных возможностях военных машин сторон потенциально самого опасного конфликта 2026 года.
Запасы лития в России требуют переоценки и могут оказаться в разы выше, чем считалось до 2025 года. Об этом говорится в исследовании «Состояние ресурсной базы критически важных металлов и элементов для развития современных технологий», подготовленном учеными РГУ нефти и газа (НИУ) имени И.М. Губкина.
Российские ученые из МФТИ с коллегами из Института прикладной математики им. М. В. Келдыша РАН и Института физики Земли им. О.Ю. Шмидта РАН разработали инновационный метод для расчета равновесного распределения несмешивающихся жидкостей в пористой среде. Результаты применения этого метода можно использовать в разработках по повышению нефтеотдачи и гидрологии, а также геологического СО2-хранения.
Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.
В ноябре 2025 года при взлете российской ракеты с Байконура к МКС с существенной высоты упала кабина обслуживания 8У216. Поскольку в 2010-х годах из экономии средств у нас отказались от дублирования стартовых площадок, это создало ситуацию временной невозможности пилотируемых полетов. Теперь, всего через три месяца после происшествия, «Роскосмос» смог решить проблему, поставив запасную кабину обслуживания, найденную на складах Минобороны. Весенние пуски к МКС, запланированные ранее, теперь имеют шансы пройти в срок.
«Любить лишь можно только раз», — писал поэт Сергей Есенин, а герои культовых сериалов приходили к выводу, что «настоящая» влюбленность случается в жизни максимум дважды. Однако ни один из этих тезисов не подкреплен научными данными. Американские исследователи подошли к вопросу иначе: опросили более 10 тысяч человек и вывели среднее число сильных влюбленностей, возможных в течение жизни.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
