Результаты исследования, открывающие путь к созданию более предсказуемого и безопасного ИИ, были приняты на main track of EMNLP 2025, и опубликованы в виде препринта на портале arXiv.
Большие языковые модели, такие как ChatGPT и LLaMA демонстрируют впечатляющую способность понимать и генерировать человеческий текст. Однако их впечатляющие успехи омрачаются серьезной проблемой: отсутствием надежных логических способностей. Модели легко справляются с простыми задачами, но испытывают сложности с многоступенчатыми рассуждениями, порой сбиваясь с пути, противореча самим себе или приходя к абсурдным выводам. Для решения этой проблемы был предложен метод «цепочки мыслей» (англ. Chain of thoughts), который заставляет модель проговаривать промежуточные шаги рассуждений. Это улучшило результаты, но не решило проблему полностью: нейросеть научилась имитировать процесс размышления, но ее шаги по-прежнему могут быть логически неверными. Это подчеркивает необходимость эффективного способа проверять корректность логических переходов. Стандартные способы оценки логических способностей ИИ только по правильности его финального ответа на логическую задачу напоминают экзамен, где мы смотрим только на итоговый ответ, не заглядывая в черновик ученика.
Чтобы по-настоящему понять, «думает» ли модель или просто подбирает слова, необходимо заглянуть внутрь ее архитектуры. Современные LLM построены на основе так называемой трансформерной архитектуры, состоящей из множества вычислительных блоков, в том числе, «голов внимания». Эти головы можно представить как узкоспециализированных экспертов, каждый из которых выучивает при обучении модели свой набор задач: один ищет синтаксические связи, другой — семантические, третий просто отмечает в тексте все слова и местоимения, которые относятся к одному и тому же объекту и так далее. При этом, иногда бывает и даже так, что роли отдельных голов противоречат друг другу, и модель целиком справляется с задачей хуже, чем некоторые ее компоненты по отдельности. Ученые поставили перед собой цель не просто найти таких «экспертов», которые специализируется именно на проверке логической корректности, но и создать легкий и быстрый инструмент для измерения их активности.
Команда исследователей разработала метод, основанный на анализе внутреннего механизма внимания, а именно на взаимодействии «запросов» («queries») и «ключей» («keys»). Когда модель анализирует текст, на каждой голове внимания внутри неё формируется несколько внутренних представлений этого текста в виде матриц чисел. При умножении друг на друга двух таких матриц, называемых «запросом» и «ключом» устанавливаются связи между различными частями текста. Ученые предположили, что логическая состоятельность вывода по отношению к исходным данным должна отражаться в силе связи между внутренними представлениями исходных данных и ответа модели. Они разработали метрику QK-score, оценивающую, насколько хорошо сила этой связи в отдельных головах внимания модели предсказывает правильность логического вывода. Ученые предположили, что головы с высоким QK-score играют важную роль в способности модели к логическим рассуждениям.
В ходе масштабных экспериментов, проведенных на целом ряде моделей с числом параметров от 1,5 до 70 миллиардов, ученые подтвердили свою гипотезу. Они обнаружили, что в каждой из исследованных нейросетей действительно существуют специализированные «головы внимания», которые хорошо справляются с логическими выводами. Метод QK-score, примененный к этим «головам», показал более высокую точность в оценке логических выводов, чем стандартный подход, основанный на анализе вероятностей конечного ответа модели. Более того, новый метод продемонстрировал впечатляющую устойчивость: он продолжал работать даже тогда, когда исследователи намеренно пытались запутать модель, добавляя в исходный текст множество отвлекающих, нерелевантных фактов. Это доказывает, что найденные механизмы реагируют именно на логическую структуру, а не на поверхностные особенности текста.
Лаида Кушнарева, старший академический консультант в компании Huawei, прокомментировала: «Чтобы проверить, что головы внимания с высоким QK-score действительно важны для того, чтобы модель могла делать правильные логические выводы, мы поставили такой эксперимент. Сначала выбрали «топовые» головы — те, у которых QK-score самый высокий. Затем мы временно отключили такие головы: технически это значит, что выходы этих голов обнулялись и не передавались дальше по сети. После этого давали модели логические задачи и измеряли долю верных ответов. Для чистоты сравнения мы провели тот же самый тест, выключив случайно выбранные головы в том же количестве. Так вот, когда мы отключали «топовые» головы с высоким QK-score, качество падало заметно сильнее, чем при отключении случайных. Так мы подтвердили, что без «топовых» голов внимания модели становится намного тяжелее рассуждать логически, то есть, они действительно важны для таких задач.
Важно добавить, что отключение голов делалось только как контрольный эксперимент, чтобы проверить, что QK-score действительно выделяет значимые для логики головы. Для практического применения метода ничего выключать не нужно: QK-score считается на уже обученной модели за один обычный проход по данным, без переобучения и без каких-либо изменений в архитектуре или весах. ».
Интересна и возможность масштабируемости метода. Предыдущие методы изучения внутренней структуры нейросетей, основанные на поочередном отключении разных частей модели для того, чтобы найти самые важные, были чрезвычайно затратными по вычислительным ресурсам и практически не применимыми к гигантским современным LLM. Новый же метод просто не учитывает значения от «выключенных» частей модели, и работает за один проход, открывая возможность для внутреннего анализа даже в достаточно больших нейросетях.
Эдуард Тульчинский, аспирант Сколтеха: «Лично для меня, весьма интересным оказалось то, что доля голов, связанных с обработкой одних и тех же правил формальной логики, была относительно близка для разных моделей. В то же время, в рамках одной модели, количество голов ассоциированных с обработкой разных правил сильно отличалось друг от друга, и наблюдаемая картина не всегда совпадала с интуитивным представлением об их сложности.
Понимание того, какие головы связаны с обработкой логических переходов, позволит улучшить качество генерируемых моделью текстов. В первую очередь, это касается решения математических задач и иных приложений, требующих строгости рассуждения, но, в целом, каких-то жёстких ограничений на область применимости у нашего метода нет. С его помощью можно легко использовать уже содержащуюся в модели информацию, чтобы на каждом шаге генерации цепочки рассуждения отсекать логически некорректных кандидатов продолжения. Разработанный нами QK-score не требует дообучения модели и может быть применим к любой трансформерной модели, при условии наличия доступа к ее внутренним представлениям.
Помимо улучшения работы языковых моделей, наш метод повышает их интерпретируемость, что чрезвычайно важно для повышения надёжности и безопасности ИИ».
Анастасия Вознюк, студентка МФТИ, добавила: «Дополнительно мы проводили эксперименты с различными типами логических рассуждений. Существующие датасеты были довольно ограничены по количеству текстов в них, поэтому мы значительно расширили их, и проверили, получим ли мы такие же хорошие результаты на наборе текстов, в которых модели требуется делать разные виды логических рассуждений. Наши эксперименты показали, что QK-Score и в таком случае значительно опережает стандартный метод оценки. Таким образом, мы можем и дальше увеличивать сложность логических рассуждений и оценивать как наш метод с ними справляется.»
В итоге, результаты этого исследования улучшают наше понимание того, как трансформеры обрабатывают абстрактную информацию и делают из нее какие-то выводы. На практике этот метод может быть использован для создания систем рассуждений нового поколения, способных не только генерировать ответы, но и оценивать степень своей уверенности в них. Это особенно важно для таких областей, как юриспруденция, медицина и научные исследования, где цена ошибки, вызванной «галлюцинацией» нейросети, может быть чрезвычайно высока.
В дальнейшем научная группа планирует усовершенствовать свой метод для анализа более узкоспециализированных логических задач и исследовать, как можно интегрировать QK-score непосредственно в процесс генерации текста, чтобы нейросеть могла корректировать свои рассуждения «на лету».