• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
5 сентября, 10:10
ФизТех
216

Новый метод научил искусственный интеллект лучше мыслить логически

❋ 4.5

Международный коллектив ученых из Сколковского института науки и технологий, МФТИ, Института исследований искусственного интеллекта (AIRI) и Университета Париж-Сите разработал новый, элегантный метод для проверки логических способностей больших языковых моделей (LLM). Вместо того чтобы судить о правильности рассуждений нейросети лишь по ее финальному ответу, исследователи научились заглядывать внутрь ее механизма «внимания» и находить там скрытые паттерны, отвечающие за проверку логики. Этот подход, названный QK-score, позволяет с высокой точностью определять, следует ли модель законам логики на каждом шаге своих рассуждений, делая ее работу более прозрачной и надежной.

Ученые заглянули внутрь ИИ, чтобы сделать его более надежным / © Kawê Rodrigues, unsplash.com

Результаты исследования, открывающие путь к созданию более предсказуемого и безопасного ИИ, были приняты на main track of EMNLP 2025, и опубликованы в виде препринта на портале arXiv.

Большие языковые модели, такие как ChatGPT и LLaMA демонстрируют впечатляющую способность понимать и генерировать человеческий текст. Однако их впечатляющие успехи омрачаются серьезной проблемой: отсутствием надежных логических способностей. Модели легко справляются с простыми задачами, но испытывают сложности с многоступенчатыми рассуждениями, порой сбиваясь с пути, противореча самим себе или приходя к абсурдным выводам. Для решения этой проблемы был предложен метод «цепочки мыслей» (англ. Chain of thoughts), который заставляет модель проговаривать промежуточные шаги рассуждений. Это улучшило результаты, но не решило проблему полностью: нейросеть научилась имитировать процесс размышления, но ее шаги по-прежнему могут быть логически неверными. Это подчеркивает необходимость эффективного способа проверять корректность логических переходов. Стандартные способы оценки логических способностей ИИ только по правильности его финального ответа на логическую задачу напоминают экзамен, где мы смотрим только на итоговый ответ, не заглядывая в черновик ученика.

Чтобы по-настоящему понять, «думает» ли модель или просто подбирает слова, необходимо заглянуть внутрь ее архитектуры. Современные LLM построены на основе так называемой трансформерной архитектуры, состоящей из множества вычислительных блоков, в том числе, «голов внимания». Эти головы можно представить как узкоспециализированных экспертов, каждый из которых выучивает при обучении модели свой набор задач: один ищет синтаксические связи, другой — семантические, третий просто отмечает в тексте все слова и местоимения, которые относятся к одному и тому же объекту и так далее. При этом, иногда бывает и даже так, что роли отдельных голов противоречат друг другу, и модель целиком справляется с задачей хуже, чем некоторые ее компоненты по отдельности. Ученые поставили перед собой цель не просто найти таких «экспертов», которые специализируется именно на проверке логической корректности, но и создать легкий и быстрый инструмент для измерения их активности.

Команда исследователей разработала метод, основанный на анализе внутреннего механизма внимания, а именно на взаимодействии «запросов» («queries») и «ключей» («keys»). Когда модель анализирует текст, на каждой голове внимания внутри неё формируется несколько внутренних представлений этого текста в виде матриц чисел. При умножении друг на друга двух таких матриц, называемых «запросом» и «ключом» устанавливаются связи между различными частями текста. Ученые предположили, что логическая состоятельность вывода по отношению к исходным данным должна отражаться в силе связи между внутренними представлениями исходных данных и ответа модели. Они разработали метрику QK-score, оценивающую, насколько хорошо сила этой связи в отдельных головах внимания модели предсказывает правильность логического вывода. Ученые предположили, что головы с высоким QK-score играют важную роль в способности модели к логическим рассуждениям.

В ходе масштабных экспериментов, проведенных на целом ряде моделей с числом параметров от 1,5 до 70 миллиардов, ученые подтвердили свою гипотезу. Они обнаружили, что в каждой из исследованных нейросетей действительно существуют специализированные «головы внимания», которые хорошо справляются с логическими выводами. Метод QK-score, примененный к этим «головам», показал более высокую точность в оценке логических выводов, чем стандартный подход, основанный на анализе вероятностей конечного ответа модели. Более того, новый метод продемонстрировал впечатляющую устойчивость: он продолжал работать даже тогда, когда исследователи намеренно пытались запутать модель, добавляя в исходный текст множество отвлекающих, нерелевантных фактов. Это доказывает, что найденные механизмы реагируют именно на логическую структуру, а не на поверхностные особенности текста.

Лаида Кушнарева, старший академический консультант в компании Huawei, прокомментировала: «Чтобы проверить, что головы внимания с высоким QK-score действительно важны для того, чтобы модель могла делать правильные логические выводы, мы поставили такой эксперимент. Сначала выбрали «топовые» головы — те, у которых QK-score самый высокий. Затем мы временно отключили такие головы: технически это значит, что выходы этих голов обнулялись и не передавались дальше по сети. После этого давали модели логические задачи и измеряли долю верных ответов. Для чистоты сравнения мы провели тот же самый тест, выключив случайно выбранные головы в том же количестве. Так вот, когда мы отключали «топовые» головы с высоким QK-score, качество падало заметно сильнее, чем при отключении случайных. Так мы подтвердили, что без «топовых» голов внимания модели становится намного тяжелее рассуждать логически, то есть, они действительно важны для таких задач.

Важно добавить, что отключение голов делалось только как контрольный эксперимент, чтобы проверить, что QK-score действительно выделяет значимые для логики головы. Для практического применения метода ничего выключать не нужно: QK-score считается на уже обученной модели за один обычный проход по данным, без переобучения и без каких-либо изменений в архитектуре или весах. ».

Интересна и возможность масштабируемости метода. Предыдущие методы изучения внутренней структуры нейросетей, основанные на поочередном отключении разных частей модели для того, чтобы найти самые важные, были чрезвычайно затратными по вычислительным ресурсам и практически не применимыми к гигантским современным LLM. Новый же метод просто не учитывает значения от «выключенных» частей модели, и работает за один проход, открывая возможность для внутреннего анализа даже в достаточно больших нейросетях.

Эдуард Тульчинский, аспирант Сколтеха: «Лично для меня, весьма интересным оказалось то, что доля голов, связанных с обработкой одних и тех же правил формальной логики, была относительно близка для разных моделей. В то же время, в рамках одной модели, количество голов ассоциированных с обработкой разных правил сильно отличалось друг от друга, и наблюдаемая картина не всегда совпадала с интуитивным представлением об их сложности.

Понимание того, какие головы связаны с обработкой логических переходов, позволит улучшить качество генерируемых моделью текстов. В первую очередь, это касается решения математических задач и иных приложений, требующих строгости рассуждения, но, в целом, каких-то жёстких ограничений на область применимости у нашего метода нет. С его помощью можно легко использовать уже содержащуюся в модели информацию, чтобы на каждом шаге генерации цепочки рассуждения отсекать логически некорректных кандидатов продолжения. Разработанный нами QK-score не требует дообучения модели и может быть применим к любой трансформерной модели, при условии наличия доступа к ее внутренним представлениям.

Принцип работы метода QK-score. Схема иллюстрирует, как метод оценивает логический переход внутри трансформерной модели. Из внутреннего представления утверждения (обозначено Q) извлекается «запрос», а из потенциальных ответов ‘истина’ и ‘ложь’ (обозначены K) — «ключи». Специализированная «голова внимания» вычисляет степень их соответствия друг другу(QK-score). Ответ с наибольшим значением QK-Score (выбираемый функцией ARGMAX) признается наиболее логически состоятельным / © Eduard Tulchinskii et al., arXiv:2502.17017v1

Помимо улучшения работы языковых моделей, наш метод повышает их интерпретируемость, что чрезвычайно важно для повышения надёжности и безопасности ИИ».

Анастасия Вознюк, студентка МФТИ, добавила: «Дополнительно мы проводили эксперименты с различными типами логических рассуждений. Существующие датасеты были довольно ограничены по количеству текстов в них, поэтому мы значительно расширили их, и проверили, получим ли мы такие же хорошие результаты на наборе текстов, в которых модели требуется делать разные виды логических рассуждений. Наши эксперименты показали, что QK-Score и в таком случае значительно опережает стандартный метод оценки. Таким образом, мы можем и дальше увеличивать сложность логических рассуждений и оценивать как наш метод с ними справляется.»

В итоге, результаты этого исследования улучшают наше понимание того, как трансформеры обрабатывают абстрактную информацию и делают из нее какие-то выводы. На практике этот метод может быть использован для создания систем рассуждений нового поколения, способных не только генерировать ответы, но и оценивать степень своей уверенности в них. Это особенно важно для таких областей, как юриспруденция, медицина и научные исследования, где цена ошибки, вызванной «галлюцинацией» нейросети, может быть чрезвычайно высока.

В дальнейшем научная группа планирует усовершенствовать свой метод для анализа более узкоспециализированных логических задач и исследовать, как можно интегрировать QK-score непосредственно в процесс генерации текста, чтобы нейросеть могла корректировать свои рассуждения «на лету».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
19 октября, 10:00
Любовь С.

Первый официальный документ, описывающий принцип действий в случае возможного контакта с внеземной цивилизацией, был принят Международной академией астронавтики (IAA) в 1989 году. С тех пор декларацию неоднократно пересматривали, а ее обновленную версию, адаптированную под реалии XXI века, ученые разработали совместно с участниками проекта по поиску инопланетян SETI.

20 октября, 10:40
Юлия Трепалина

Индийские психиатры описали необычное психическое расстройство у мужчины с алкогольной зависимостью. Так называемый синдром инкуба, сопровождаемый сексуальными галлюцинациями, развился у пациента при попытке сократить потребление спиртного.

20 октября, 12:07
Александр Березин

Парадокс Циолковского — Ферми сформулировали почти век назад: во Вселенной много звезд, у них — планет. Почему же мы не видим следов других цивилизаций в небе? Автор новой гипотезы считает, что все дело в нейросетях.

17 октября, 22:00
Любовь С.

В густой оранжевой дымке Титана, где температура опускается до минус 180 градусов Цельсия, происходят невозможные по земным меркам химические реакции: молекула циановодорода (HCN), рожденная в атмосфере из азота, метана и этана, могла сформировать кристаллы, объединяющие вещества противоположной природы.

19 октября, 10:00
Любовь С.

Первый официальный документ, описывающий принцип действий в случае возможного контакта с внеземной цивилизацией, был принят Международной академией астронавтики (IAA) в 1989 году. С тех пор декларацию неоднократно пересматривали, а ее обновленную версию, адаптированную под реалии XXI века, ученые разработали совместно с участниками проекта по поиску инопланетян SETI.

18 октября, 11:06
Evgenia Vavilova

Число несущих их клеток не просто увеличивается, механизм отбора связан с эволюционным преимуществом половых клеток. Узнать об этом помог улучшенный метод секвенирования ДНК.

13 октября, 11:10
Илья Гриднев

Согласно новой гипотезе, сознание возникает не только из-за активности нейронов, но и благодаря физическим процессам — электромагнитным полям от движения жидкости в мозге. Эта модель, как и ее предшественники, пока носит теоретический характер, но предлагает нестандартный взгляд на проблему синхронизации работы разных отделов мозга.

26 сентября, 11:41
ИИМК РАН

Археологи Института истории материальной культуры РАН (ИИМК РАН), при поддержке фонда «История отечества» в ходе раскопок обнаружили на всемирно известной стоянке каменного века Костенки-17 в Воронежской области редчайшие украшения из зубов песца и окаменелой раковины, а также уникальный для этого времени нуклеус из бивня мамонта для снятия заготовок.

7 октября, 11:46
Игорь Байдов

Экспедиционное судно «Эндьюранс» более века называли самым прочным деревянным судном, когда-либо построенным человеком. Но находка, сделанная на дне моря, и изучение старых писем раскрыли неприятную правду. Легендарный «Эндьюранс» Шеклтона вовсе не был непобедимым левиафаном. Напротив, он имел фатальные недостатки, а капитан знал об этом еще до того, как ушел в роковое плавание к берегам Антарктиды.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно