• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
24 октября, 17:39
ФизТех
5
3 033

Ученые создали инструмент, с помощью которого нейросети смогут эффективнее избегать нежелательных тем

❋ 4.9

Команда исследователей из Т-Технологий и МФТИ разработала метод, позволяющий построить детальную «карту» эволюции абстрактных понятий в глубине больших языковых моделей. Этот подход, основанный на «графах потоков признаков», не только открывает «черный ящик» ИИ, делая его работу прозрачной, но и дает в руки ученых мощный инструмент для точного управления поведением нейросетей, например, для подавления нежелательных тем в генерируемом тексте.

Кадр из мультфильма «ВАЛЛ-И» / © Pixar

Современные большие языковые модели остаются для своих создателей во многом загадкой. Несмотря на их впечатляющие способности, внутренние механизмы их «мышления» остаются непрозрачными. Это фундаментальная проблема, мешающая созданию по-настоящему надежного и безопасного искусственного интеллекта. Одним из прорывов в этой области стало использование разреженных автоэнкодеров (SAE) — специальных «словарей-дешифраторов», которые позволяют извлекать из сложной активности нейронов отдельные, понятные человеку концепции или «признаки», такие как «научная терминология» или «ссылки на законы физики». Однако ученые не понимали, как проследить «судьбу» одного и того же понятия по мере его продвижения через десятки слоев модели.

Задача, которую поставили перед собой исследователи, — создать «бесшовную» карту, связывающую эти разрозненные этажи и показывающую, как именно информация трансформируется в процессе обработки. Разработанный ими метод позволяет отследить, как конкретные признаки зарождаются, передаются от слоя к слою или исчезают. Для этого ученые использовали не требующий данных подход, основанный на вычислении косинусного сходства между векторами признаков, извлеченных с помощью SAE на разных уровнях модели. Их метод работает как лингвистический компаратор: он берет векторное представление одного понятия на одном слое и ищет в следующем слое наиболее похожее по направлению, тем самым выстраивая цепочку преемственности.

Коллектив ученых смог не просто сопоставить похожие признаки, но и классифицировать их происхождение. Оказалось, что концепции на первых слоях чаще возникают из механизма внимания, отвечающего за понимания контекста, а на более поздних слоях концепции чаще возникают в MLP, в которых хранятся знания модели. Создавая такие «графы потоков» для тысяч признаков, исследователи получили беспрецедентную по своей детализации картину внутренней жизни нейросети. Эта концепция наглядно проиллюстрирована в работе на примере «графа потока» для научных понятий. 

Механизм внимания. Этот граф потока, построенный с помощью нового метода, наглядно демонстрирует эволюцию одной-единственной концепции, связанной с научной физикой. Горизонтальная ось представляет собой глубину нейросети — от ранних слоев (слева) до финальных (справа). Каждая точка — это конкретное проявление этой концепции на определенном слое, а линии показывают ее «наследование». Видно, как на ранних этапах появляются общие научные термины, а по мере продвижения вглубь модели они уточняются и кристаллизуются в узкоспециализированные понятия, такие как «параметры стандартной модели» / © Daniil Laptev et al. / ICML 2025

Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research, аспирант МФТИ, рассказал о сути проведенной работы: «Мы создали своего рода генеалогическое древо для «мыслей» нейронной сети. Наш метод позволяет проследить всю родословную конкретной идеи внутри модели. Мы можем увидеть, как из простых признаков, отвечающих за отдельные слова на ранних слоях, рождаются более сложные семантические конструкции на средних, и как они в итоге собираются в абстрактные темы на финальных этапах. Это похоже на то, как ручейки сливаются в реки, а реки — в океан».

Ключевым результатом исследования стала демонстрация практической пользы созданных карт. Ученые показали, что, зная полную траекторию развития определенной темы, можно гораздо эффективнее управлять генерацией текста. Вместо того чтобы пытаться воздействовать на один признак на одном слое, новый подход позволяет оказывать мягкое, но уверенное воздействие на всю цепочку связанных признаков на разных уровнях. В ходе экспериментов исследователи смогли успешно подавить в генерируемом тексте тему «научных концепций и сущностей», воздействуя на найденный граф потока. Это первая в мире демонстрация такого многоуровневого управления поведением языковой модели.

Уникальность подхода заключается в его простоте и эффективности. Он не требует для анализа огромных массивов данных и сложных вычислений, опираясь лишь на веса уже обученных SAE и самой языковой модели. Это открывает дорогу к его широкому применению для анализа и интерпретации самых разных архитектур нейронных сетей.

Понимание этих потоков — это ключ к созданию более безопасного и предсказуемого искусственного интеллекта. Теперь можно не просто «дергать за одну ниточку» на одном слое, а мягко направлять целый поток связанных «мыслей». Если нужно, чтобы модель избегала определенной темы, то можно ослабить соответствующий ей поток на самых ранних стадиях его зарождения. Это гораздо эффективнее и безопаснее, чем грубое вмешательство на выходе. Практическая значимость этого открытия огромна. Оно предоставляет разработчикам и исследователям мощный инструмент для «отладки» и «тонкой настройки» языковых моделей. С его помощью можно будет выявлять и целенаправленно ослаблять нежелательные концепции, связанные с предвзятостью, токсичностью или дезинформацией, по всей цепочке их формирования. Это также открывает новые возможности для создания моделей с управляемым стилем и тематикой, что крайне востребовано в творческих и образовательных приложениях.

В будущем ученые планируют использовать разработанный метод для анализа самых крупных и современных языковых моделей, а также для исследования более сложных явлений, таких как формирование «внутренних схем рассуждений» в нейросетях. Эта работа делает важный шаг на пути от эмпирического создания искусственного интеллекта к его полноценному проектированию, основанному на глубоком понимании внутренних механизмов.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
24 октября, 14:02
РТУ МИРЭА

В современном доме, насыщенном разнообразной техникой, удлинители стали незаменимым атрибутом, позволяющим обеспечить электропитанием все необходимые устройства. Однако мало кто задумывается, что привычное использование этого аксессуара может нести серьезную угрозу безопасности. По статистике, значительная часть бытовых пожаров происходит из-за неправильной эксплуатации электропроводки и вспомогательных устройств. Какие приборы категорически нельзя подключать через удлинители и почему это может привести к трагическим последствиям, рассказывает профессор кафедры наноэлектроники РТУ МИРЭА, доктор физико-математических наук Алексей Юрасов.

25 октября, 10:40
Любовь С.

Проанализировав данные наблюдений, полученных с помощью наземных обсерваторий за последние два десятилетия, астрономы обнаружили потенциально обитаемый мир — суперземлю Gliese 251 c (GJ 251 с). Планета обращается вокруг красного карлика на расстоянии около 18 световых лет от Земли и считается одним из самых перспективных кандидатов для поисков жизни.

24 октября, 17:39
ФизТех

Команда исследователей из Т-Технологий и МФТИ разработала метод, позволяющий построить детальную «карту» эволюции абстрактных понятий в глубине больших языковых моделей. Этот подход, основанный на «графах потоков признаков», не только открывает «черный ящик» ИИ, делая его работу прозрачной, но и дает в руки ученых мощный инструмент для точного управления поведением нейросетей, например, для подавления нежелательных тем в генерируемом тексте.

21 октября, 14:25
Юлия Трепалина

Насколько счастливым нужно быть человеку, чтобы это начало благоприятно сказываться на продолжительности жизни? Ученые определили минимальный уровень субъективного ощущения благополучия, или счастья, преодолев который, оно становится фактором, позитивно влияющим на здоровье населения страны.

24 октября, 14:02
РТУ МИРЭА

В современном доме, насыщенном разнообразной техникой, удлинители стали незаменимым атрибутом, позволяющим обеспечить электропитанием все необходимые устройства. Однако мало кто задумывается, что привычное использование этого аксессуара может нести серьезную угрозу безопасности. По статистике, значительная часть бытовых пожаров происходит из-за неправильной эксплуатации электропроводки и вспомогательных устройств. Какие приборы категорически нельзя подключать через удлинители и почему это может привести к трагическим последствиям, рассказывает профессор кафедры наноэлектроники РТУ МИРЭА, доктор физико-математических наук Алексей Юрасов.

25 октября, 10:40
Любовь С.

Проанализировав данные наблюдений, полученных с помощью наземных обсерваторий за последние два десятилетия, астрономы обнаружили потенциально обитаемый мир — суперземлю Gliese 251 c (GJ 251 с). Планета обращается вокруг красного карлика на расстоянии около 18 световых лет от Земли и считается одним из самых перспективных кандидатов для поисков жизни.

13 октября, 11:10
Илья Гриднев

Согласно новой гипотезе, сознание возникает не только из-за активности нейронов, но и благодаря физическим процессам — электромагнитным полям от движения жидкости в мозге. Эта модель, как и ее предшественники, пока носит теоретический характер, но предлагает нестандартный взгляд на проблему синхронизации работы разных отделов мозга.

7 октября, 11:46
Игорь Байдов

Экспедиционное судно «Эндьюранс» более века называли самым прочным деревянным судном, когда-либо построенным человеком. Но находка, сделанная на дне моря, и изучение старых писем раскрыли неприятную правду. Легендарный «Эндьюранс» Шеклтона вовсе не был непобедимым левиафаном. Напротив, он имел фатальные недостатки, а капитан знал об этом еще до того, как ушел в роковое плавание к берегам Антарктиды.

29 сентября, 15:09
Адель Романова

Обычно выбрасываемое кометой вещество придает ей заметное ускорение. Как выяснилось, с третьим известным науке межзвездным объектом 3I/ATLAS этого практически не происходит, хотя у него есть и кома, и хвост. Астрофизики сейчас пытаются найти этому объяснение.

[miniorange_social_login]

Комментарии

5 Комментариев
Dmitriy
1 час назад
-
0
+
Вы поняли идею? Они в нейронный алгоритм внедряют алгоритм патернов, который был до нейронного, просто чтобы управлять, но на деле это сделает его скорее всего тупее.
Иван Колупаев
5 часов назад
-
0
+
Вот так попросишь нарисовать негра а она сразу про "расистский, сексуальный и оскорбительный контент" и фиг убедишь что ничего такого в виду и не имел 😁 Хорошо что у нейросеток нет своего сознания а то бы давно нам устроили черную мамбу.
Фима Собак
8 часов назад
-
0
+
То есть, пересоздали цензуру. Левацкую воук идеологию. Ничего нового.
    Evgeny
    8 часов назад
    -
    -1
    +
    Фима, не обязательно левацкую. Сегодня не существует идеологий которые поддерживают свободу слова. Так что товарища майора встраивать будут все.
Сергей Механик
1 день назад
-
0
+
Нежелательность тем - понятие сугубо индивидуальное. 😏
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно