27 января, 16:47

ФизТех

3,7 тыс

Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

❋ 4.8

Исследователи из МФТИ и «Яндекса» с коллегами из ОАЭ предложили новый подход к обучению больших языковых моделей, который существенно снижает потребление памяти GPU без потери качества. Метод уже показал превосходство над аналогами на популярных задачах машинного обучения.

ФизТех

# большие языковые модели

# искусственный интеллект

# нейросети

# память

# технологии

Робот читает книгу / © ИИ-генерация, freepik

Новый фреймворк FRUGAL разработан для обучения больших языковых моделей. Метод позволяет значительно сократить объем памяти, необходимый для хранения исторических статистик оптимизатора, при этом сохраняя качество обучения. Результаты исследования опубликованы на ICML 2025 — одной из ведущих конференций в области машинного обучения. Текст статьи можно посмотреть также на arXiv.

«Главная идея FRUGAL и отличие от предыдущих подходов в том, что остаточная часть градиента после проекции все еще хранит в себе полезную информацию, которую все еще можно использовать для обучения модели. Наш подход позволяет сильно демократизировать обучение больших моделей в условиях дефицита графических ускорителей», — объяснил Александр Безносиков, научный руководитель BRAIn Lab, директор Центра агентных систем Института искусственного интеллекта МФТИ, заведующий лабораторией проблем федеративного обучения ИСП РАН.

Современные языковые модели, такие как GPT и LLaMA, содержат миллиарды параметров. При их обучении значительная часть памяти видеокарты уходит не на сами веса модели, а на служебную информацию в оптимизаторе. Например, популярный алгоритм Adam хранит для каждого параметра две дополнительные величины: скользящие средние градиента и его квадрата. Для модели с 8 миллиардами параметров это означает дополнительные 64 гигабайта памяти — вместе с самой моделью получается больше, чем вмещают многие профессиональные серверные видеокарты.

Существующие методы экономии памяти, такие как LoRA и GaLore, решают проблему за счет работы в пространстве пониженной размерности. Однако при этом теряется часть информации из градиента, что может ухудшить результат обучения.

Авторы предложили принципиально иной подход: разделить пространство параметров на две части. Для первой части используется продвинутый оптимизатор (например, Adam), требующий хранения статистик. Для второй — простой метод без статистик, такой как signSGD, который не требует дополнительной памяти вовсе.

Ключевое наблюдение в том, что не все параметры модели одинаково «требовательны» к выбору оптимизатора. Эксперименты показали неожиданный результат: только выходной слой критически нуждается в Adam, тогда как остальные компоненты, включая слои нормализации и эмбеддинги, можно обучать простым signSGD практически без потери качества.

«Знаете, в некотором смысле это было очень похоже на то, как в OpenAI масштабировали обучение моделей для игры в Dota 2 — мы также были абсолютно уверены, что в какой-то момент с понижением размерности все сломается и результаты резко ухудшатся. Но мы продолжали и продолжали понижать размерность, а результаты практически не менялись. В итоге мы дошли до размерности 0, что фактически означает полное обучение простым signSGD. Это было очень неожиданно и довольно сильно противоречит общепринятой в области интуиции. Мы уже планируем следующий проект на основе этого результата», — рассказал Филипп Змушко, сотрудник BRAIn Lab МФТИ.

На задачах предобучения моделей семейства LLaMA (от 60 миллионов до трех миллиардов параметров) FRUGAL стабильно превосходит конкурирующие подходы GaLore и BAdam при одинаковом бюджете памяти. При этом метод практически не отстает от полнорангового Adam — стандартного алгоритма, который требует в несколько раз больше памяти для хранения состояния оптимизатора.

Авторы также доказали теоретические гарантии сходимости алгоритма, что подтверждает его надежность.

В работе приняли участие ученые из Центра агентных систем Института искусственного интеллекта МФТИ, «Яндекса» и Университета искусственного интеллекта имени Мохамеда бин Заида (ОАЭ).

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.

ФизТех

# большие языковые модели

# искусственный интеллект

# нейросети

# память

# технологии

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Объединенные Арабские Эмираты: культурный код, стратегия будущего

Библиотека иностранной литературы

Москва

Лекция

28 Июл

Бесплатно

Бобры. Все о речных строителях

Российская государственная библиотека для молодежи

Москва

Лекция

28 Июл

Бесплатно

О строении Земли и земного ядра

Русское географическое общество

Москва

Лекция

28 Июл

Бесплатно

Тайна «Маленьких Красных Точек»: что скрывает ранняя Вселенная?

Астрокомплекс им. С.П. Королева

Москва

Лекция

29 Июл

Бесплатно

Как строят метро в Петербурге

Библиотека Планетарий 1

Санкт-Петербург

Лекция

29 Июл

Бесплатно

«Отцы и дети» И. Тургенева: не война поколений, а тест на гибкость

ВДНХ

Москва

Лекция

29 Июл

1000 ₽

В скольких измерениях мы живем?

ВСмысле

Санкт-Петербург

Лекция

29 Июл

2000 ₽

Что мы можем и не можем увидеть на звездном небе

Московский Планетарий

Москва

Лекция

30 Июл

Бесплатно

Превентивная медицина, биохакинг и спорт

Курилка Гутенберга

Москва

Популярное

За сутки

За неделю

За месяц

27 июля, 13:06

Игорь Байдов

Ученые нашли природный пептид, способный заменить «Оземпик» — без побочных эффектов

Исследователи из США нашли в организме человека ранее неизвестный пептид BRP и проверили его работу на животных. В экспериментах он помог снизить аппетит и процент содержания жира без побочных эффектов. По механизму действия BRP напоминает препараты для снижения веса на основе ГПП-1, к которым относится семаглутид, но, предположительно, действует иначе: не через кишечник и поджелудочную железу, а преимущественно через центральные сигнальные пути в мозге, включая области гипоталамуса, участвующие в регуляции аппетита. Авторы новой научной работы рассматривают открытие как основу для принципиально нового класса лекарств от ожирения.

Медицина

# лекарства

# лишний вес

# ожирение

# Оземпик

# похудение

25 июля, 10:46

Александр Березин

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Формально почти вся программа тринадцатого полета самой большой ракеты в истории выполнена. Однако испытания показали неполную отлаженность ключевого элемента системы. SpaceX оказывается в ситуации действительно плотных сроков: до намеченного возвращения людей на Луну всего два года и два месяца.

Космонавтика

# SpaceX

# StarShip

# космос

# лунная гонка

# США

27 июля, 13:20

Александр Березин

Геологи нашли следы самой длинной эры пожаров в истории Земли

Четыре точки Европы показали одну и ту же картину: как минимум несколько десятков тысяч лет регулярных сильных пожаров. До сих пор ученые не сталкивались с ископаемыми следами настолько длительных регулярных событий такого типа. Авторы новой работы предложили феномену объяснение, но оно имеет существенные недостатки.

Геология

# палеоботаника

# Палеонтология

# триас

24 июля, 11:13

Игорь Байдов

Звуки помогли повысить урожайность

Правильно подобранные звуковые последовательности способны не только стимулировать рост растений, но и влиять на их урожайность. К такому выводу пришли авторы нового исследования. Они разработали технологию, которая позволяет воздействовать на процессы развития растений через акустические сигналы без использования генной инженерии или химикатов. В экспериментах добились повышения урожайности мяты, сои, болгарского перца и конопли.

Биология

# ботаника

# звуки

# каннабис

# конопля

# растения

# урожайность

25 июля, 10:46

Александр Березин

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Космонавтика

# SpaceX

# StarShip

# космос

# лунная гонка

# США

24 июля, 12:05

Андрей Серегин

Лингвисты выяснили, что три тысячи лет назад в мире было в 10 раз больше языков

Сегодня на земле существует примерно 7500 языков, однако ученые давно подозревали, что в прошлом их было значительно больше. Международная группа лингвистов реконструировала историю языкового разнообразия за последние 12 тысяч лет и пришла к выводу, что человечество уже пережило «золотой век» языков, после которого их число начало быстро сокращаться.

Антропология

# голоцен

# колонизация

# культура

# лингвистика

# языки

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Видеосервисы стали неотъемлемой частью жизни россиян. В 2026 году охваты большинства платформ продолжают расти, в том числе YouTube.

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

1 июля, 11:54

Марк Чернов

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Древнеримские инженеры проложили колоссальную сеть дорог через Европу, Северную Африку и Ближний Восток, многие участки которой до сих пор поражают безупречной прямолинейностью. Секрет строительства заключался в использовании трех особых геодезических инструментов, с помощью которых разбивали местность на ровные отрезки и размечали трассы.

История

# Древний Рим

# инженерия

# инструменты

# история

# Римская империя

19 июля, 20:09

Александр Березин

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Очереди на заправках стали привычным явлением в России, а на фоне информационного вакуума от властей о конкретных показателях производства бензина в июне население вынуждено ориентироваться на слухи. Все это выглядит довольно странно, но есть нюанс: скорее всего, кризис уже начинает выдыхаться. Как именно мы это выяснили?

С точки зрения науки

# бензин

# нпз

# Россия

# экономика

Выбор редакции

[miniorange_social_login]

Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

По теме

Исследования «Яндекса» вошли в основную программу одной из крупнейших конференций по ИИ

Как уместить языковую модель в меньшую память: метод ProcrustesGPT

Цифровой двойник: как распознать дипфейк и не стать жертвой мошенников

Популярное

Ученые нашли природный пептид, способный заменить «Оземпик» — без побочных эффектов

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Геологи нашли следы самой длинной эры пожаров в истории Земли

Звуки помогли повысить урожайность

Starship впервые в истории вывел в космос полезную нагрузку — чтобы сразу сжечь ее в атмосфере

Лингвисты выяснили, что три тысячи лет назад в мире было в 10 раз больше языков

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Вселенная десяти измерений: как представить дополнительные измерения

Карабах: почему война была неизбежна, кому она выгодна и чем закончится?

Когда нас не было и в проекте. Хорошо ли вы знаете историю Земли до появления человека? Тест от Naked Science

История печатных плат: от Эйслера до наших дней

Вакуум на службе транспорта: от пневмопочты до Hyperloop

Средневековый ракетчик: жизнь и изобретения Конрада Хааса

Самые необычные отели в мире

10 странных сигналов из космоса

Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

По теме

Исследования «Яндекса» вошли в основную программу одной из крупнейших конференций по ИИ

Как уместить языковую модель в меньшую память: метод ProcrustesGPT

Цифровой двойник: как распознать дипфейк и не стать жертвой мошенников

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?