• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
27 января, 16:47
ФизТех
2
3,7 тыс

Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

❋ 4.8

Исследователи из МФТИ и «Яндекса» с коллегами из ОАЭ предложили новый подход к обучению больших языковых моделей, который существенно снижает потребление памяти GPU без потери качества. Метод уже показал превосходство над аналогами на популярных задачах машинного обучения.

Робот читает книгу / © ИИ-генерация, freepik

Новый фреймворк FRUGAL разработан для обучения больших языковых моделей. Метод позволяет значительно сократить объем памяти, необходимый для хранения исторических статистик оптимизатора, при этом сохраняя качество обучения. Результаты исследования опубликованы на ICML 2025 — одной из ведущих конференций в области машинного обучения. Текст статьи можно посмотреть также на arXiv.

«Главная идея FRUGAL и отличие от предыдущих подходов в том, что остаточная часть градиента после проекции все еще хранит в себе полезную информацию, которую все еще можно использовать для обучения модели. Наш подход позволяет сильно демократизировать обучение больших моделей в условиях дефицита графических ускорителей», — объяснил Александр Безносиков, научный руководитель BRAIn Lab, директор Центра агентных систем Института искусственного интеллекта МФТИ, заведующий лабораторией проблем федеративного обучения ИСП РАН.

Современные языковые модели, такие как GPT и LLaMA, содержат миллиарды параметров. При их обучении значительная часть памяти видеокарты уходит не на сами веса модели, а на служебную информацию в оптимизаторе. Например, популярный алгоритм Adam хранит для каждого параметра две дополнительные величины: скользящие средние градиента и его квадрата. Для модели с 8 миллиардами параметров это означает дополнительные 64 гигабайта памяти — вместе с самой моделью получается больше, чем вмещают многие профессиональные серверные видеокарты.

Существующие методы экономии памяти, такие как LoRA и GaLore, решают проблему за счет работы в пространстве пониженной размерности. Однако при этом теряется часть информации из градиента, что может ухудшить результат обучения.

Авторы предложили принципиально иной подход: разделить пространство параметров на две части. Для первой части используется продвинутый оптимизатор (например, Adam), требующий хранения статистик. Для второй — простой метод без статистик, такой как signSGD, который не требует дополнительной памяти вовсе.

Ключевое наблюдение в том, что не все параметры модели одинаково «требовательны» к выбору оптимизатора. Эксперименты показали неожиданный результат: только выходной слой критически нуждается в Adam, тогда как остальные компоненты, включая слои нормализации и эмбеддинги, можно обучать простым signSGD практически без потери качества.

«Знаете, в некотором смысле это было очень похоже на то, как в OpenAI масштабировали обучение моделей для игры в Dota 2 — мы также были абсолютно уверены, что в какой-то момент с понижением размерности все сломается и результаты резко ухудшатся. Но мы продолжали и продолжали понижать размерность, а результаты практически не менялись. В итоге мы дошли до размерности 0, что фактически означает полное обучение простым signSGD. Это было очень неожиданно и довольно сильно противоречит общепринятой в области интуиции. Мы уже планируем следующий проект на основе этого результата», — рассказал Филипп Змушко, сотрудник BRAIn Lab МФТИ.

На задачах предобучения моделей семейства LLaMA (от 60 миллионов до трех миллиардов параметров) FRUGAL стабильно превосходит конкурирующие подходы GaLore и BAdam при одинаковом бюджете памяти. При этом метод практически не отстает от полнорангового Adam — стандартного алгоритма, который требует в несколько раз больше памяти для хранения состояния оптимизатора.

Авторы также доказали теоретические гарантии сходимости алгоритма, что подтверждает его надежность.

В работе приняли участие ученые из Центра агентных систем Института искусственного интеллекта МФТИ, «Яндекса» и Университета искусственного интеллекта имени Мохамеда бин Заида (ОАЭ).

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
12 марта, 08:40
Любовь С.

Распределение невидимой материи вокруг сливающихся черных дыр и в космическом пространстве способно искажать форму гравитационных волн, которые ученые ловят с помощью интерферометров. К такому выводу астрофизики пришли, проанализировав потенциальное влияние темной материи на движение компактных объектов и распространение гравитационных сигналов.

11 марта, 07:55
Игорь Байдов

Уже давно в социальных сетях распространяются видеоролики с воющими под музыку собаками. Одни воспринимают такое поведение как случайную реакцию на звук, другие полагают, что за этим скрываются вокальные способности, которые, возможно, собаки унаследовали от своих предков — древних волков. Команда ученых из США решила проверить, действительно ли домашние питомцы различают высоту звука и пытаются подстроить под нее свой голос, или же это просто совпадение, своего рода инстинктивный отклик на мелодию без всякой «музыкальности».

11 марта, 10:59
НИУ ВШЭ

Российские ученые из МИЭМ ВШЭ разработали новый подход к моделированию электротепловых процессов в мощных электронных схемах на печатных платах. Они научились быстро и точно рассчитывать, как нагреваются электронные компоненты во время работы, чтобы заранее предотвращать их перегрев и поломку. При работе электродвигателей или другого оборудования их электронные детали (особенно транзисторы) сильно нагреваются, потому что при прохождении тока неизбежно выделяется тепло. Когда происходят резкие перепады температуры при включении и выключении устройства, параметры транзисторов меняются, и техника может выйти из строя.

6 марта, 16:13
Губкинский университет

Запасы лития в России требуют переоценки и могут оказаться в разы выше, чем считалось до 2025 года. Об этом говорится в исследовании «Состояние ресурсной базы критически важных металлов и элементов для развития современных технологий», подготовленном учеными РГУ нефти и газа (НИУ) имени И.М. Губкина.

6 марта, 13:26
ФизТех

Российские ученые из МФТИ с коллегами из Института прикладной математики им. М. В. Келдыша РАН и Института физики Земли им. О.Ю. Шмидта РАН разработали инновационный метод для расчета равновесного распределения несмешивающихся жидкостей в пористой среде. Результаты применения этого метода можно использовать в разработках по повышению нефтеотдачи и гидрологии, а также геологического СО2-хранения.

10 марта, 14:47
ФизТех

Коллектив климатологов из Института географии РАН, Института физики атмосферы имени А. М. Обухова РАН и МФТИ разобрал одну из самых загадочных страниц климатической летописи: почему Арктика так резко потеплела в первой половине XX века, причем особенно сильно зимой. Ученые оценили, какую долю в тех температурных скачках могли сыграть «внутренние ритмы» атмосферы и океана Северного полушария и почему ответ меняется в зависимости от того, как именно отделять естественные колебания климата от внешних факторов вроде роста парниковых газов и загрязнения воздуха аэрозолями.

3 марта, 14:06
Александр Березин

В ноябре 2025 года при взлете российской ракеты с Байконура к МКС с существенной высоты упала кабина обслуживания 8У216. Поскольку в 2010-х годах из экономии средств у нас отказались от дублирования стартовых площадок, это создало ситуацию временной невозможности пилотируемых полетов. Теперь, всего через три месяца после происшествия, «Роскосмос» смог решить проблему, поставив запасную кабину обслуживания, найденную на складах Минобороны. Весенние пуски к МКС, запланированные ранее, теперь имеют шансы пройти в срок.

5 марта, 08:10
Александр Березин

Одна сторона сыплет более дорогими и сложными баллистическими ракетами, другая — относительно дешевыми крылатыми. Но при этом первая на порядок беднее второй. А что у них с технологическим уровнем для наземной войны, и почему, кстати, глава второй избегает даже самого этого слова? Попробуем разобраться в реальных возможностях военных машин сторон потенциально самого опасного конфликта 2026 года.

28 февраля, 16:50
Игорь Байдов

В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.

[miniorange_social_login]

Комментарии

2 Комментария
gotostereo .
27.01.2026
-
0
+
спасибо хоть тут будущим пахнет, а то везде прошлое
Sam Dowson
27.01.2026
-
0
+
"существенно снижает потребление памяти GPU" - то есть снижения цен на память типа DRAM DDR5-6 даже не в проекте? А то за планку 16Гб 20 тыс отдавать как-то оверпрайс...
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно