• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
23.10.2025, 15:52
ФизТех
494

Искусственный интеллект сделали более прозрачным, научив создавать карту собственных мыслей

❋ 4.9

Команда исследователей из Т-Технологий, Московского физико-технического института (МФТИ) и Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) разработала новаторский метод, позволяющий проследить «жизненный цикл» отдельных концепций внутри сложных нейронных сетей. Подход получил название SAE Match. Он работает как своего рода магнитно-резонансная томография для искусственного интеллекта, создавая детальную карту того, как абстрактные признаки — «пушистый», «историческое событие» или «радость» — зарождаются, трансформируются и передаются между слоями нейросети. Это фундаментальный прорыв в области интерпретируемости искусственного интеллекта, открывающий путь к созданию более прозрачных, надежных и управляемых систем.

Искусственный интеллект / © ChatGPT

Современные большие языковые модели подобны «черным ящикам». Мы можем восхищаться их способностью писать стихи или программный код, но до недавнего времени практически не понимали, как именно они приходят к своим выводам. Этот недостаток прозрачности — главное препятствие на пути создания по-настоящему безопасного искусственного интеллекта, ведь в глубинах нейронной сети могут скрываться нежелательные предубеждения или опасные логические цепочки. Проблема усугубляется двумя фундаментальными явлениями: полисемантичностью, когда один и тот же нейрон отвечает за несколько несвязанных понятий, и суперпозицией — множество различных признаков «упакованы» в одно и то же математическое пространство. Это похоже на попытку понять смысл романа, в котором каждое слово имеет десяток значений, а предложения могут описывать несколько событий одновременно.

Одним из ключей к расшифровке этого сложного кода стали разреженные автоэнкодеры (SAE) — специальные нейросетевые «словари», которые способны извлекать из активности нейронов отдельные, осмысленные концепции, так называемые моносемантичные признаки. Однако у этого подхода было серьезное ограничение: он позволял заглянуть лишь в один-единственный слой нейросети. Связи между этими концепциями на разных уровнях обработки информации оставались загадкой. Было неясно, является ли понятие «король» на пятом слое тем же самым, что и «король» на двадцатом, или же оно претерпело значительные изменения.

Именно эту задачу — построить мост между отдельными «этажами» нейронной сети — и решили исследователи. Их целью было создать универсальный метод, который мог бы без привлечения огромных массивов данных, лишь анализируя внутреннюю структуру модели, сопоставить признаки на разных слоях и отследить их эволюцию. Команда представила результаты работы на международной конференции ICLR 2025. Статью также опубликовали в виде препринта на научном портале arXiv.

Коллектив ученых разработал алгоритм SAE Match, решающий сложнейшую комбинаторную задачу. Представьте, что у вас есть два словаря для разных языков (два слоя нейросети), в каждом из которых тысячи понятий (признаков). Алгоритм должен найти соответствия, определив, какое понятие из первого словаря наиболее близко по смыслу понятию из второго. SAE Match делает это, минимизируя математическое расстояние между представлениями признаков. Главная сложность — на разных слоях нейросети одни и те же концепции могут иметь разный «масштаб» или «яркость». Решение этой проблемы стало ключевым нововведением. Исследователи разработали технику «свертки параметров» — элегантный математический прием, который учитывает пороги активации признаков и приводит их к единому масштабу перед сравнением. Это позволило добиться очень высокой точности сопоставления.

Результаты экспериментов, проведенных на языковой модели Gemma 2, превзошли все ожидания. Метод не только успешно сопоставлял семантически близкие признаки, что команда подтвердила с помощью внешней большой языковой модели, но и выявил фундаментальные закономерности. Оказалось, большинство концепций в нейросети «живут» и сохраняют свою смысловую стабильность на протяжении примерно пяти слоев, после чего либо исчезают, либо трансформируются во что-то новое. Самым поразительным доказательством эффективности метода стала возможность «хирургического вмешательства» в работу нейросети. Используя созданную карту связей, ученые смогли полностью «вырезать» один из слоев модели, а затем, с помощью своего алгоритма, «перебросить» информацию через образовавшуюся пропасть, соединив предыдущий слой со следующим. Языковая модель практически не потеряла производительность.




«Хирургия» нейросети: как пропустить целый слой без потери качества. Схематическое изображение эксперимента по «обрезке» слоя. Слева показан стандартный путь обработки информации в нейросети, где она последовательно проходит через все вычислительные блоки. Справа — результат применения метода SAE Match: исследователи, используя свою карту соответствия признаков, «перебрасывают» информацию напрямую с одного слоя на следующий, полностью пропуская промежуточный блок. Успешность этого эксперимента доказывает, что разработанный метод точно описывает внутренние информационные потоки модели / © Nikita Balagansky et al. / ICLR 2025

Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research, аспирант Московского физико-технического института, пояснил: «С помощью нашего метода можно понять, каким образом концепции образуются и изменяются внутри языковых моделей. В дальнейшем мы сможем более точно изучать и контролировать поведение внутри модели. Возможность пропускать некоторые слои и подставлять нашу «карту» вместо них без потери качества, показывает, что мы верно представляем механизмы внутри».

Главное отличие и преимущество разработанного подхода — его полная независимость от данных. Для построения карты связей не нужно прогонять через модель терабайты текстов. Исследователи анализируют исключительно веса и параметры модели. Это делает метод чрезвычайно эффективным и универсальным. Он не просто описывает, что происходит внутри нейросети, но и позволяет предсказывать ее поведение и даже целенаправленно его изменять.

Во-первых, это мощный инструмент для обеспечения безопасности искусственного интеллекта. Анализируя пути эволюции концепций, можно выявлять и нейтрализовывать скрытые вредоносные или предвзятые логические цепочки. Во-вторых, это путь к оптимизации. Понимая, какие слои или признаки являются избыточными, можно «упрощать» модели, делая их более быстрыми и менее ресурсоемкими без потери производительности. В-третьих, это открывает двери для создания гибридных моделей, где части одной нейросети можно будет эффективно комбинировать с частями другой. В конечном счете, это исследование закладывает основу для перехода от «черных ящиков» к понятным и контролируемым системам искусственного интеллекта.

В будущем это позволит нам не только находить и исправлять ошибки в существующих моделях, но и проектировать новые архитектуры, которые будут более эффективными и безопасными.

В будущем команда планирует составить полные «генеалогические древа» для ключевых концепций в самых больших языковых моделях, а также исследовать более сложные, нелинейные взаимодействия между признаками. Разработанный инструмент может стать стандартом в новой области — механистической интерпретируемости, которая стремится превратить загадочное искусство создания искусственный интеллект в точную науку.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
ФизТех
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
3 июля, 14:55
ФизТех

Нейроморфные вычисления — это попытка скопировать принцип работы мозга: не последовательно выполнять команды, как обычный процессор, а обрабатывать информацию параллельно, через сеть взаимосвязанных «нейронов», которые активируются в зависимости от поступающих сигналов. Эта идея существует уже несколько десятилетий, но до недавнего времени ее реализовывали на обычной электронной элементной базе. Исследователи из МФТИ провели обширный обзор, в котором систематизировали последние достижения в области фотонных нейроморфных вычислений.

3 июля, 09:25
Игорь Байдов

Интриги и тайные свидания — прерогатива не только людей. В мире дикой природы тоже случаются драмы, и одна из них развернулась в лесах Северной Америки. Маленькие серые птицы, известные в науке как гаички Гамбела, долгое время считались образцом супружеской верности, но на деле оказались хитрыми стратегами. Они заводят потомство не только от постоянного партнера, но и от самца-соседа с определенным набором качеств. Авторы нового исследования попытались выяснить, что толкает самок на измену и как это влияет на выживание всего вида.

2 июля, 10:53
Марк Чернов

Самый большой и мощный в мире ускоритель частиц отключили на четырехлетнюю модернизацию. В 2030 году он возобновит работу под новым названием — Большой адронный коллайдер высокой светимости. Этот апгрейд позволит производить примерно в 10 раз больше столкновений частиц, чем изначально. Физики рассчитывают, что поток новых данных поможет обнаружить явления за пределами Стандартной модели, а также прольет свет на природу темной материи, антиматерии и ранней Вселенной.

1 июля, 11:54
Марк Чернов

Древнеримские инженеры проложили колоссальную сеть дорог через Европу, Северную Африку и Ближний Восток, многие участки которой до сих пор поражают безупречной прямолинейностью. Секрет строительства заключался в использовании трех особых геодезических инструментов, с помощью которых разбивали местность на ровные отрезки и размечали трассы.

28 июня, 15:51
Александр Березин

На протяжении десятилетий Тель-Авив воздерживался от этого шага, чтобы не испортить отношения с Турцией. Но после действий Израиля 2023-2026 годов официальная Анкара, как и множество государств мира, неоднократно осуждала Израиль, из-за чего изменилась и его позиция по геноциду.

29 июня, 07:59
Evgenia Vavilova

В рамках общей теории относительности и квантовой физики у исследователей не получается объяснить все данные наблюдений за космическими объектами. В этот раз ученые попытались описать Вселенную с точки зрения превращения энергии, и этот выбор позволил им составить стройное описание гравитации.

10 июня, 11:51
Александр Березин

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

25 июня, 16:20
Любовь С.

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

25 июня, 15:09
Марк Чернов

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

[miniorange_social_login]

Комментарии

Написать комментарий