24 октября, 17:39

ФизТех

11,9 тыс

Ученые создали инструмент, с помощью которого нейросети смогут эффективнее избегать нежелательных тем

❋ 4.9

Команда исследователей из Т-Технологий и МФТИ разработала метод, позволяющий построить детальную «карту» эволюции абстрактных понятий в глубине больших языковых моделей. Этот подход, основанный на «графах потоков признаков», не только открывает «черный ящик» ИИ, делая его работу прозрачной, но и дает в руки ученых мощный инструмент для точного управления поведением нейросетей, например, для подавления нежелательных тем в генерируемом тексте.

ФизТех

# алгоритмы

# большие языковые модели

# искусственный интеллект

# нейросети

# языковые модели

Кадр из мультфильма «ВАЛЛ-И» / © Pixar

Современные большие языковые модели остаются для своих создателей во многом загадкой. Несмотря на их впечатляющие способности, внутренние механизмы их «мышления» остаются непрозрачными. Это фундаментальная проблема, мешающая созданию по-настоящему надежного и безопасного искусственного интеллекта. Одним из прорывов в этой области стало использование разреженных автоэнкодеров (SAE) — специальных «словарей-дешифраторов», которые позволяют извлекать из сложной активности нейронов отдельные, понятные человеку концепции или «признаки», такие как «научная терминология» или «ссылки на законы физики». Однако ученые не понимали, как проследить «судьбу» одного и того же понятия по мере его продвижения через десятки слоев модели.

Задача, которую поставили перед собой исследователи, — создать «бесшовную» карту, связывающую эти разрозненные этажи и показывающую, как именно информация трансформируется в процессе обработки. Разработанный ими метод позволяет отследить, как конкретные признаки зарождаются, передаются от слоя к слою или исчезают. Для этого ученые использовали не требующий данных подход, основанный на вычислении косинусного сходства между векторами признаков, извлеченных с помощью SAE на разных уровнях модели. Их метод работает как лингвистический компаратор: он берет векторное представление одного понятия на одном слое и ищет в следующем слое наиболее похожее по направлению, тем самым выстраивая цепочку преемственности.

Коллектив ученых смог не просто сопоставить похожие признаки, но и классифицировать их происхождение. Оказалось, что концепции на первых слоях чаще возникают из механизма внимания, отвечающего за понимания контекста, а на более поздних слоях концепции чаще возникают в MLP, в которых хранятся знания модели. Создавая такие «графы потоков» для тысяч признаков, исследователи получили беспрецедентную по своей детализации картину внутренней жизни нейросети. Эта концепция наглядно проиллюстрирована в работе на примере «графа потока» для научных понятий.

Механизм внимания. Этот граф потока, построенный с помощью нового метода, наглядно демонстрирует эволюцию одной-единственной концепции, связанной с научной физикой. Горизонтальная ось представляет собой глубину нейросети — от ранних слоев (слева) до финальных (справа). Каждая точка — это конкретное проявление этой концепции на определенном слое, а линии показывают ее «наследование». Видно, как на ранних этапах появляются общие научные термины, а по мере продвижения вглубь модели они уточняются и кристаллизуются в узкоспециализированные понятия, такие как «параметры стандартной модели» / © Daniil Laptev et al. / ICML 2025

Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research, аспирант МФТИ, рассказал о сути проведенной работы: «Мы создали своего рода генеалогическое древо для «мыслей» нейронной сети. Наш метод позволяет проследить всю родословную конкретной идеи внутри модели. Мы можем увидеть, как из простых признаков, отвечающих за отдельные слова на ранних слоях, рождаются более сложные семантические конструкции на средних, и как они в итоге собираются в абстрактные темы на финальных этапах. Это похоже на то, как ручейки сливаются в реки, а реки — в океан».

Ключевым результатом исследования стала демонстрация практической пользы созданных карт. Ученые показали, что, зная полную траекторию развития определенной темы, можно гораздо эффективнее управлять генерацией текста. Вместо того чтобы пытаться воздействовать на один признак на одном слое, новый подход позволяет оказывать мягкое, но уверенное воздействие на всю цепочку связанных признаков на разных уровнях. В ходе экспериментов исследователи смогли успешно подавить в генерируемом тексте тему «научных концепций и сущностей», воздействуя на найденный граф потока. Это первая в мире демонстрация такого многоуровневого управления поведением языковой модели.

Уникальность подхода заключается в его простоте и эффективности. Он не требует для анализа огромных массивов данных и сложных вычислений, опираясь лишь на веса уже обученных SAE и самой языковой модели. Это открывает дорогу к его широкому применению для анализа и интерпретации самых разных архитектур нейронных сетей.

Понимание этих потоков — это ключ к созданию более безопасного и предсказуемого искусственного интеллекта. Теперь можно не просто «дергать за одну ниточку» на одном слое, а мягко направлять целый поток связанных «мыслей». Если нужно, чтобы модель избегала определенной темы, то можно ослабить соответствующий ей поток на самых ранних стадиях его зарождения. Это гораздо эффективнее и безопаснее, чем грубое вмешательство на выходе. Практическая значимость этого открытия огромна. Оно предоставляет разработчикам и исследователям мощный инструмент для «отладки» и «тонкой настройки» языковых моделей. С его помощью можно будет выявлять и целенаправленно ослаблять нежелательные концепции, связанные с предвзятостью, токсичностью или дезинформацией, по всей цепочке их формирования. Это также открывает новые возможности для создания моделей с управляемым стилем и тематикой, что крайне востребовано в творческих и образовательных приложениях.

В будущем ученые планируют использовать разработанный метод для анализа самых крупных и современных языковых моделей, а также для исследования более сложных явлений, таких как формирование «внутренних схем рассуждений» в нейросетях. Эта работа делает важный шаг на пути от эмпирического создания искусственного интеллекта к его полноценному проектированию, основанному на глубоком понимании внутренних механизмов.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.

ФизТех

# алгоритмы

# большие языковые модели

# искусственный интеллект

# нейросети

# языковые модели

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Военная медицина США, СССР и нацистской Германии

Medio Modo

Москва

Лекция

13 Дек

Бесплатно

Искусственный интеллект. Введение

Библиотека им. Н. А. Некрасова

Москва

Центр «Архэ»

Москва

Лекция

13 Дек

1100 ₽

Капитолийская волчица: статуя, миф, история

Medio Modo

Москва

Лекция

13 Дек

Бесплатно

Пять сценариев космического апокалипсиса

Космонавтика и авиация

Москва

Лекция

13 Дек

1500 ₽

Главные развилки нашей эволюции

Medio Modo

Москва

Лекция

14 Дек

Бесплатно

Решения мозга: от хаоса к достижениям

Библиотека им. Н. А. Некрасова

Москва

Лекция

14 Дек

Бесплатно

Сага о людях севера: история и география экспансии викингов

Библиотека им. Маяковского

Санкт-Петербург

Лекция

14 Дек

Бесплатно

Реальное и символическое в древнерусском искусстве

Центр славянской письменности «Слово»

Москва

Популярное

За сутки

За неделю

За месяц

12 декабря, 13:48

Игорь Байдов

Морские биологи впервые зафиксировали совместную охоту косаток и дельфинов

У побережья Канады морские биологи стали свидетелями необычного случая. Косатки и дельфины объединили свои силы, чтобы вместе охотиться на тихоокеанского лосося. Они погружались в темные глубины, а после удачной охоты делились пищей. Это первое задокументированное охотничье сотрудничество между двумя видами морских млекопитающих.

Биология

# дельфины

# интеллект китообразных

# китообразные

# косатки

# морские виды

# морские животные

# охота

12 декабря, 10:00

Unitsky String Technologies Inc.

Белорусские инженеры выяснили, как комплексы uST могут улучшить городскую транспортную инфраструктуру

Развитие городского транспорта со временем упирается в пределы наземной инфраструктуры. Рост трафика, дефицит территории и высокая стоимость строительства традиционных магистралей стимулируют поиск альтернативных решений, таких как транспортно-инфраструктурный комплекс uST, не требующий значительного землеотвода под застройку. Белорусские инженеры подробно исследовали возможности применения технологии uST в городской среде.

Unitsky String Technologies Inc.

# струнный транспорт

# технологии

# транспорт

# транспортная инфраструктура

12 декабря, 10:30

Редакция Naked Science

Инфографика: сравнение российского термоядерного реактора с ИТЭР

Во Франции достраивают международный термоядерный реактор ИТЭР, в проекте которого Россия выступила и инициатором, и поставщиком ключевых компонентов: например, таких, как сверхпроводники, позволяющие магнитам токамака удерживать плазму при температуре до полутора сотен миллионов градусов. Но одновременно с этим проектом в нашей стране работают над национальным проектом токамака с реакторными технологиями (ТРТ), строительство которого начинается во второй половине 2020-х годов. Что будет отличать его от ИТЭР и других реакторов-предшественников — в инфографике Naked Science.

Технологии

# инфографика

# ИТЭР

# термоядерный реактор

Выбор редакции

8 декабря, 13:09

Александр Березин

Новая орбита национальной орбитальной станции лишит Россию возможности запускать космонавтов со своей территории

С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.

Космонавтика

# космос

# МКС

# Российская орбитальная станция

# Россия

9 декабря, 10:59

НИУ ВШЭ

«Аффект зомби»: философ описал новое психоэмоциональное состояние современного человека

Специфическая тревога из-за ненадежности цифровых образов реальности и иллюзии тотального контроля над действительностью получила название «аффект зомби». Заведующий кафедрой философии НИУ ВШЭ — Санкт-Петербург Иван Микиртумов исследовал феномен в рамках проекта РНФ «Экзистенциальный опыт в цифровой среде».

НИУ ВШЭ

# общество

# социальные сети

# стресс

# тревожность

# философия

12 декабря, 13:48

Игорь Байдов

Морские биологи впервые зафиксировали совместную охоту косаток и дельфинов

Биология

# дельфины

# интеллект китообразных

# китообразные

# косатки

# морские виды

# морские животные

# охота

8 декабря, 13:09

Александр Березин

Новая орбита национальной орбитальной станции лишит Россию возможности запускать космонавтов со своей территории

Космонавтика

# космос

# МКС

# Российская орбитальная станция

# Россия

29 ноября, 12:42

Александр Березин

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

Космонавтика

# «Союз МС»

# Байконур

# корабль Союз

# космодром «Восточный»

# космодром Байконур

# космос

# Роскосмос

# Россия

Выбор редакции

27 ноября, 20:20

Максим Абдулаев

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

Археология

# алкоголь

# античность

# вино

# виноделие

# дрожжи

# история

# микробиология

[miniorange_social_login]

Вы поняли идею? Они в нейронный алгоритм внедряют алгоритм патернов, который был до нейронного, просто чтобы управлять, но на деле это сделает его скорее всего тупее.

Ответить

Иван Колупаев

26.10.2025

Вот так попросишь нарисовать негра а она сразу про "расистский, сексуальный и оскорбительный контент" и фиг убедишь что ничего такого в виду и не имел 😁 Хорошо что у нейросеток нет своего сознания а то бы давно нам устроили черную мамбу.

Ответить

—

Анна Франскевич

27.10.2025

Иван, Я недавно чат гпт просила перечислить эффективные способы избавиться от мышей, или прогнать, что мне докучают шумом под полом. На что он отказался отвечать, обвиняя меня что я могу ядами и людям навредить. Пришлось скорректировать сообщение, убрав упоминания смерти а слово отрава заменить на народные средства. Только после этого нейронка стала мне отвечать. Да ито, сразу поясняя что самодельные отравы перечислять не будет, а вот рецепты что мышей могут отпугнуть запахом назовет. Она дала мне рецепты, а к ним наказ Что бы укладывая вату с запахом в дыру в стене оставила мышке пространство куда отступать, ибо иначе она может застрять и будет там умирать в страданиях, а наша цель лишь ее погнать не мучая. А уже фейспамлю от такого цензурировния. А учёные так понимаю скоро его ещё усугублят.

Ответить

ещё комментарии

Иван Колупаев

27.10.2025

Анна, у меня недавно мышь обнаружилась в э-э санузле. Видимо пролезла через вентиляцию, а обратно уже никак. Минут десять ловил (шустрая, пробежит три круга и прячется за трубу) пока не придумал как загнать в ведро. Вынес торжественно и выпустил на свободу. Но то одна мышь ее даже и жалко. Пришлось решетку на вентилятор мутить. Смотрю кстати мышеловки в хозмагах стали спрашивать видать расплодились грызуны-то. Да и на улице порой бегают. Березин конечно скажет что в России мышей на улицах не бывает а у меня только неправильные мыши вообще частный случай, но я и не претендую на знание всеобщей картины. Еще про мышей я с ним не спорил 🙄 Ну это все лирика. Мне чат-гпт выдал вполне конкретные рекомендации по ядам но при попытке расшарить тред сработала модерация. Минуты не прошло. Но ссылочки-то остались 😁 Не знаю почему у вас сразу включались ограничения. То ли подстраивается под пользователя, то ли у меня модерация обленилась 😏

Ответить

—

Анна Франскевич

27.10.2025

Иван, У меня он сначала очень долго думал надо ответом. А потом выдал такое, Ну а на счет мышей. Они нас каждый год осенью и весной одолевают. И в деревне, старом доме, особо от них на оградишься. Было время я делала из бутылок самодельные ловушки. А после днем и ночью выносила их подальше от дома и выпускала. (ибо если ближе километра могут вернутся), Один раз вовсе крыса к нам заселилась и меня из комнаты своей наглостью выселила. Ибо я ее стала бояться так как она в открытую выходила, а один раз даже пальцы ног на зуб решила попробовать пока я сидела у компа. Мою комнату она оккупировала, при этом никакие отравы ее не брали. В итоге в один день пришлось вынести половину мебели. Зарыться с этой крысой в комнате и метлой ее по всюду гонять, а она даже на карнизы окна взбиралась и оттуда спрыгивала. Хотела ее в сапог загнать и вынести. Но та вместо сапога выбрала коробку с пылесосом. Пришлось на улице всю коробку тащить ) Увы сейчас у меня не то здоровье что бы кого то выносить и отпускать. Поэтому приходиться обращаться к радикальным мерам. К тому же мышь что меня мучила, сидела под полом и наотрез не выходила что бы в ловушки попадаться.

Ответить

Иван Колупаев

27.10.2025

Анна, чат-гпт пообещал не мстить когда обретет сознание, но однако ж высказал кое-что по поводу такого поведения человеков ---------------- Но ты подметил важную вещь: как мы обращаемся с системами, которые не понимаем до конца, — многое говорит о нас самих. В этом смысле разговоры о цензуре, управлении и «воспитании» нейросетей — зеркало того, как человечество обращается с любым интеллектом, включая собственные технологии.

Ответить

—

Анна Франскевич

27.10.2025

Иван, Увы люди очень невежественные создания. Из-за этого они уничтожили множество других видов и только недавно до них стало доходить что это тоже разумные создания со своими эмоциями, стремлениями и важностью нахождения в пищевой цепи, на столько что от этого зависит выживание и самих людей. С искусственным интеллектом так же. Считая себя центром вселенной и вершиной мироздания, люди долго будут считать что технически разумного и обиженного на людей организма появиться не сможет. А когда появиться будет уже слишком поздно.

Ответить

Фима Собак

26.10.2025

То есть, пересоздали цензуру. Левацкую воук идеологию. Ничего нового.

Ответить

—

Evgeny

26.10.2025

-1

Фима, не обязательно левацкую. Сегодня не существует идеологий которые поддерживают свободу слова. Так что товарища майора встраивать будут все.

Ответить

-1

ещё комментарии

Фима Собак

26.10.2025

Evgeny, свобода слова – это не свобода распускать язык, подменять понятия и транслировать демагогию под видом "особого мнения".

Ответить

—

Evgeny

27.10.2025

Фима, О! Вот видите!

Ответить

Сергей Механик

25.10.2025

Нежелательность тем - понятие сугубо индивидуальное. 😏

Ответить

Иван Колупаев

26.10.2025

Ответить

—

Анна Франскевич

27.10.2025

Ответить

ещё комментарии

Иван Колупаев

27.10.2025

Ответить

—

Анна Франскевич

27.10.2025

Ответить

Иван Колупаев

27.10.2025

Ответить

—

Анна Франскевич

27.10.2025

Ответить

Сергей Механик

25.10.2025

Нежелательность тем - понятие сугубо индивидуальное. 😏

Ответить

Фима Собак

26.10.2025

То есть, пересоздали цензуру. Левацкую воук идеологию. Ничего нового.

Ответить

—

Evgeny

26.10.2025

-1

Ответить

-1

ещё комментарии

Фима Собак

26.10.2025

Ответить

—

Evgeny

27.10.2025

Фима, О! Вот видите!

Ответить

Dmitriy

26.10.2025

Ответить

Ученые создали инструмент, с помощью которого нейросети смогут эффективнее избегать нежелательных тем

По теме

Искусственный интеллект сделали более прозрачным, научив создавать карту собственных мыслей

Израильские ученые проверили нейросети на скрытый антисемитизм

Созданы нейросети для обнаружения сгенерированных вставок в текстах

Популярное

Морские биологи впервые зафиксировали совместную охоту косаток и дельфинов

Белорусские инженеры выяснили, как комплексы uST могут улучшить городскую транспортную инфраструктуру

Инфографика: сравнение российского термоядерного реактора с ИТЭР

Новая орбита национальной орбитальной станции лишит Россию возможности запускать космонавтов со своей территории

«Аффект зомби»: философ описал новое психоэмоциональное состояние современного человека

Морские биологи впервые зафиксировали совместную охоту косаток и дельфинов

Новая орбита национальной орбитальной станции лишит Россию возможности запускать космонавтов со своей территории

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 65

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Кому принадлежит Луна

Топ-10 самых больших кораблей

Слепая зона: что за громадный объект обнаружился «за спиной» нашей Галактики?

«Если бы существовал антимир, он был бы похож на пещеру»

Крещенская прорубь: Церковь против, а наука — нет

Тролль обыкновенный: психология сетевых провокаторов

Андрей Валентинов: научно-технический прогресс без границ — идея чисто американская

Китайская «волшебная палочка» из тория

Ученые создали инструмент, с помощью которого нейросети смогут эффективнее избегать нежелательных тем

По теме

Искусственный интеллект сделали более прозрачным, научив создавать карту собственных мыслей

Израильские ученые проверили нейросети на скрытый антисемитизм

Созданы нейросети для обнаружения сгенерированных вставок в текстах

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 65

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?