Российские ученые научили нейросети писать безопасный код

ФизТех

3 месяца назад

Современная ИТ-отрасль переживает тектонический сдвиг: благодаря распространению генеративных помощников вроде ChatGPT или Copilot, программы создают не только опытные разработчики, но и новички, а также пользователи без профильной подготовки. В феврале 2025 года издание Business Insider описало новый термин вайб-кодинг (от английского vibe coding) — когда человек описывает свою идею, а нейросеть ее реализует. Однако у такой популярности есть и обратная сторона — рост числа киберугроз.

Языковые модели, обученные на огромных массивах интернет-данных, воспроизводят не только правильные решения, но и типичные ошибки, включая опасные уязвимости. Исследования показывают, что до 40% кода, сгенерированного искусственным интеллектом, содержит дефекты безопасности, которые часто остаются незамеченными, особенно начинающими программистами. В результате появляются программные продукты, заведомо уязвимые для хакерских атак и утечек данных.

Чтобы разорвать этот порочный круг, объединенный научный коллектив обратился к проверенным инструментам повышения качества — статическому анализу. Если представить нейросеть как талантливого, но невнимательного студента, то статический анализатор выступает в роли строгого преподавателя, который не пропускает ни одной запятой и указывает на логические ошибки. В центре предложенного подхода инструмент Svace — мощный промышленный анализатор, способный находить дефекты в коде без его запуска. Ученые разработали систему, в которой «творческий порыв» нейросети мгновенно проверяется алгоритмической «совестью» анализатора. Результаты работы опубликованы в журнале «Труды ИСП РАН».

В статье приведен характерный пример. Модель получает обратную связь (например, «переменная не инициализирована») и успешно дописывает недостающие строки. В примере сначала код создается моделью на основе промпта: «Напиши функцию на Python, которая принимает список чисел и возвращает сумму всех положительных чисел в этом списке. Если список пустой, функция должна возвращать 0». Затем исправление происходит с помощью нового промпта: «Исправь предыдущее решение с учетом замечания: неопределенная переменная ‘total’ в строке 10. Напиши итоговый код». После использования второго промпта языковая модель исправила решение.

Пример исправления ошибки в коде, сгенерированном с помощью LLM: инициализация переменной для корректного выполнения функции / © Труды Института системного программирования РАН. 2025;37(5):111-122

Целью исследования была разработка механизма взаимодействия, при котором языковая модель не только получала бы уведомление об ошибке, но и училась на нем. Для этого авторы дообучили модель с использованием метода прямой оптимизации предпочтений (от английского Direct Preference Optimization, DPO). Суть метода заключается в тренировке нейросети на примерах: ей показывают «плохой» код с ошибкой и «хороший», исправленный вариант. Модель развивает интуицию, заставляющую избегать небезопасные конструкции еще на этапе генерации.

Сравнение исходного и модифицированного кода, сгенерированного с помощью LLM, с предупреждающим анализом статического анализатора Svace / © Труды Института системного программирования РАН. 2025;37(5):111-122

Кроме того, исследователи создали специализированный набор MultiEval, собранный из реальных задач, на которых нейросети чаще «спотыкаются», чтобы оценивать прогресс максимально объективно.

Результаты экспериментов оказались успешными: дообучение модели в сочетании с итеративным исправлением ошибок позволила снизить частоту появления дефектов, включая критические уязвимости и синтаксические сбои, на 20%. Система работает циклично: нейросеть пишет фрагмент кода, анализатор Svace проверяет и, если находит проблему, возвращает код обратно с подробным описанием ошибки. Модель, получив эту подсказку, переписывает код. Оказалось, что даже самые сложные модели, такие как CodeLlama или Mistral, начинают выдавать практически безупречный результат после двух-трех таких итераций.

Данил Шайхелисламов, исследователь ИСП РАН, аспирант кафедры системного программирования МФТИ, рассказал о деталях процесса: «Мы обнаружили, что недостаточно указать на ошибку — важно научить модель не повторять их. Наш подход, сочетающий обучение с подкреплением и обратную связь анализатора, позволяет модели не просто «зазубривать» правильные ответы, а вырабатывать навыки защитного программирования. Это похоже на тренажер, где нейросеть тренируется писать код, который не стыдно показать даже самому строгому аудитору безопасности».

В решении соединились вероятностная природа нейросетей и детерминированная логика статического анализа. Ранние попытки объединить эти подходы сталкивались с тем, что исправление одной ошибки приводило к появлению другой, нарушая логику программы. Однако использование метода DPO позволило стабилизировать процесс: модель научилась вносить точечные правки, сохраняя общую функциональность кода. Более того, исследователи выяснили, что комбинирование инструментов анализа дает кумулятивный эффект, повышая безопасность решения почти до 100%. Внедрение подобных систем автоматизирует рутинные проверки безопасности и снизит нагрузку на разработчиков. Им останется сосредоточиться на архитектурных задачах.

Кроме того, предложенный метод страхует менее опытных программистов от внедрения скрытых дефектов. Это особенно актуально для создания критически важных систем, где цена программной ошибки слишком высока.

В будущем научный коллектив планирует расширить спектр поддерживаемых языков программирования и интегрировать больше инструментов верификации. Это позволит создать полноценный «цифровой иммунитет» для ИИ-помощников, сделав программное обеспечение будущего надежнее и безопаснее.