• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
23.10.2025, 15:52
ФизТех
491

Искусственный интеллект сделали более прозрачным, научив создавать карту собственных мыслей

❋ 4.9

Команда исследователей из Т-Технологий, Московского физико-технического института (МФТИ) и Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) разработала новаторский метод, позволяющий проследить «жизненный цикл» отдельных концепций внутри сложных нейронных сетей. Подход получил название SAE Match. Он работает как своего рода магнитно-резонансная томография для искусственного интеллекта, создавая детальную карту того, как абстрактные признаки — «пушистый», «историческое событие» или «радость» — зарождаются, трансформируются и передаются между слоями нейросети. Это фундаментальный прорыв в области интерпретируемости искусственного интеллекта, открывающий путь к созданию более прозрачных, надежных и управляемых систем.

Искусственный интеллект / © ChatGPT

Современные большие языковые модели подобны «черным ящикам». Мы можем восхищаться их способностью писать стихи или программный код, но до недавнего времени практически не понимали, как именно они приходят к своим выводам. Этот недостаток прозрачности — главное препятствие на пути создания по-настоящему безопасного искусственного интеллекта, ведь в глубинах нейронной сети могут скрываться нежелательные предубеждения или опасные логические цепочки. Проблема усугубляется двумя фундаментальными явлениями: полисемантичностью, когда один и тот же нейрон отвечает за несколько несвязанных понятий, и суперпозицией — множество различных признаков «упакованы» в одно и то же математическое пространство. Это похоже на попытку понять смысл романа, в котором каждое слово имеет десяток значений, а предложения могут описывать несколько событий одновременно.

Одним из ключей к расшифровке этого сложного кода стали разреженные автоэнкодеры (SAE) — специальные нейросетевые «словари», которые способны извлекать из активности нейронов отдельные, осмысленные концепции, так называемые моносемантичные признаки. Однако у этого подхода было серьезное ограничение: он позволял заглянуть лишь в один-единственный слой нейросети. Связи между этими концепциями на разных уровнях обработки информации оставались загадкой. Было неясно, является ли понятие «король» на пятом слое тем же самым, что и «король» на двадцатом, или же оно претерпело значительные изменения.

Именно эту задачу — построить мост между отдельными «этажами» нейронной сети — и решили исследователи. Их целью было создать универсальный метод, который мог бы без привлечения огромных массивов данных, лишь анализируя внутреннюю структуру модели, сопоставить признаки на разных слоях и отследить их эволюцию. Команда представила результаты работы на международной конференции ICLR 2025. Статью также опубликовали в виде препринта на научном портале arXiv.

Коллектив ученых разработал алгоритм SAE Match, решающий сложнейшую комбинаторную задачу. Представьте, что у вас есть два словаря для разных языков (два слоя нейросети), в каждом из которых тысячи понятий (признаков). Алгоритм должен найти соответствия, определив, какое понятие из первого словаря наиболее близко по смыслу понятию из второго. SAE Match делает это, минимизируя математическое расстояние между представлениями признаков. Главная сложность — на разных слоях нейросети одни и те же концепции могут иметь разный «масштаб» или «яркость». Решение этой проблемы стало ключевым нововведением. Исследователи разработали технику «свертки параметров» — элегантный математический прием, который учитывает пороги активации признаков и приводит их к единому масштабу перед сравнением. Это позволило добиться очень высокой точности сопоставления.

Результаты экспериментов, проведенных на языковой модели Gemma 2, превзошли все ожидания. Метод не только успешно сопоставлял семантически близкие признаки, что команда подтвердила с помощью внешней большой языковой модели, но и выявил фундаментальные закономерности. Оказалось, большинство концепций в нейросети «живут» и сохраняют свою смысловую стабильность на протяжении примерно пяти слоев, после чего либо исчезают, либо трансформируются во что-то новое. Самым поразительным доказательством эффективности метода стала возможность «хирургического вмешательства» в работу нейросети. Используя созданную карту связей, ученые смогли полностью «вырезать» один из слоев модели, а затем, с помощью своего алгоритма, «перебросить» информацию через образовавшуюся пропасть, соединив предыдущий слой со следующим. Языковая модель практически не потеряла производительность.




«Хирургия» нейросети: как пропустить целый слой без потери качества. Схематическое изображение эксперимента по «обрезке» слоя. Слева показан стандартный путь обработки информации в нейросети, где она последовательно проходит через все вычислительные блоки. Справа — результат применения метода SAE Match: исследователи, используя свою карту соответствия признаков, «перебрасывают» информацию напрямую с одного слоя на следующий, полностью пропуская промежуточный блок. Успешность этого эксперимента доказывает, что разработанный метод точно описывает внутренние информационные потоки модели / © Nikita Balagansky et al. / ICLR 2025

Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research, аспирант Московского физико-технического института, пояснил: «С помощью нашего метода можно понять, каким образом концепции образуются и изменяются внутри языковых моделей. В дальнейшем мы сможем более точно изучать и контролировать поведение внутри модели. Возможность пропускать некоторые слои и подставлять нашу «карту» вместо них без потери качества, показывает, что мы верно представляем механизмы внутри».

Главное отличие и преимущество разработанного подхода — его полная независимость от данных. Для построения карты связей не нужно прогонять через модель терабайты текстов. Исследователи анализируют исключительно веса и параметры модели. Это делает метод чрезвычайно эффективным и универсальным. Он не просто описывает, что происходит внутри нейросети, но и позволяет предсказывать ее поведение и даже целенаправленно его изменять.

Во-первых, это мощный инструмент для обеспечения безопасности искусственного интеллекта. Анализируя пути эволюции концепций, можно выявлять и нейтрализовывать скрытые вредоносные или предвзятые логические цепочки. Во-вторых, это путь к оптимизации. Понимая, какие слои или признаки являются избыточными, можно «упрощать» модели, делая их более быстрыми и менее ресурсоемкими без потери производительности. В-третьих, это открывает двери для создания гибридных моделей, где части одной нейросети можно будет эффективно комбинировать с частями другой. В конечном счете, это исследование закладывает основу для перехода от «черных ящиков» к понятным и контролируемым системам искусственного интеллекта.

В будущем это позволит нам не только находить и исправлять ошибки в существующих моделях, но и проектировать новые архитектуры, которые будут более эффективными и безопасными.

В будущем команда планирует составить полные «генеалогические древа» для ключевых концепций в самых больших языковых моделях, а также исследовать более сложные, нелинейные взаимодействия между признаками. Разработанный инструмент может стать стандартом в новой области — механистической интерпретируемости, которая стремится превратить загадочное искусство создания искусственный интеллект в точную науку.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
13 февраля, 13:18
Игорь Байдов

Приблизительно 4,5 тысячи лет назад в Британии произошла быстрая и масштабная смена населения. Неолитические народы, построившие Стоунхендж и большинство других памятников, практически исчезли, их заменили представители другой культуры. Долгое время археологи спорили, откуда пришли новые люди, которым так быстро удалось покорить остров. Ответ нашла международная команда генетиков.

15 февраля, 11:25
Николай Цыгикало

Удивить разработками космической техники сегодня трудно. И все же есть новшества для орбитальных полетов, выделяющиеся своим необычным замыслом. Может ли работать на орбите воздушный реактивный двигатель? Причем работать неограниченно долго, да еще не требуя топлива. Конечно, нет, скажете вы. Тем не менее такое возможно. Мы расскажем подробнее о самых необычных двигателях для самых перспективных космических орбит.

16 февраля, 07:00
Максим Абдулаев

Археологи из Дании и Испании использовали алгоритмы машинного обучения, чтобы восстановить карту растительности Ближнего Востока времен зарождения сельского хозяйства. Вопреки популярному мнению, потепление климата не расширило, а сократило ареалы диких злаков на 25%, вынудив древних людей начать их культивацию в изолированных экологических убежищах.

12 февраля, 07:52
Адель Романова

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

12 февраля, 08:19
Полина Меньшова

«Любить лишь можно только раз», — писал поэт Сергей Есенин, а герои культовых сериалов приходили к выводу, что «настоящая» влюбленность случается в жизни максимум дважды. Однако ни один из этих тезисов не подкреплен научными данными. Американские исследователи подошли к вопросу иначе: опросили более 10 тысяч человек и вывели среднее число сильных влюбленностей, возможных в течение жизни.

12 февраля, 11:41
Александр Березин

На наземные растения, в основном деревья, приходится 80 процентов всей биомассы Земли, 450 миллиардов тонн сухого углерода и более двух триллионов тонн «живого веса». Поэтому идея сажать новые леса для связывания СО2 из атмосферы долго казалась логичной. Новые данные показали, что реальность заметно сложнее.

12 февраля, 07:52
Адель Романова

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

28 января, 10:50
Игорь Байдов

Международная команда палеонтологов описала новый вид динозавра размером с крупную современную птицу. Он носил на голове плотный костяной нарост, который эти животные, возможно, использовали для внутривидовых разборок. Находка показывает, что даже мелкие хищники мелового периода могли решать конфликты не только когтями и зубами, но и ударами головой.

26 января, 14:26
Александр Березин

Образцы грунта, взятые астронавтами полвека назад, вложили еще один важный кирпич в здание научной картины мира: гипотеза о том, что Земля исходно была сухой, не стыкуется с фактами. Похоже, идею о невозможности сохранения большого количества воды на «теплых» планетах придется пересмотреть.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно