27 января, 16:47

ФизТех

3,7 тыс

Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

❋ 4.8

Исследователи из МФТИ и «Яндекса» с коллегами из ОАЭ предложили новый подход к обучению больших языковых моделей, который существенно снижает потребление памяти GPU без потери качества. Метод уже показал превосходство над аналогами на популярных задачах машинного обучения.

ФизТех

# большие языковые модели

# искусственный интеллект

# нейросети

# память

# технологии

Робот читает книгу / © ИИ-генерация, freepik

Новый фреймворк FRUGAL разработан для обучения больших языковых моделей. Метод позволяет значительно сократить объем памяти, необходимый для хранения исторических статистик оптимизатора, при этом сохраняя качество обучения. Результаты исследования опубликованы на ICML 2025 — одной из ведущих конференций в области машинного обучения. Текст статьи можно посмотреть также на arXiv.

«Главная идея FRUGAL и отличие от предыдущих подходов в том, что остаточная часть градиента после проекции все еще хранит в себе полезную информацию, которую все еще можно использовать для обучения модели. Наш подход позволяет сильно демократизировать обучение больших моделей в условиях дефицита графических ускорителей», — объяснил Александр Безносиков, научный руководитель BRAIn Lab, директор Центра агентных систем Института искусственного интеллекта МФТИ, заведующий лабораторией проблем федеративного обучения ИСП РАН.

Современные языковые модели, такие как GPT и LLaMA, содержат миллиарды параметров. При их обучении значительная часть памяти видеокарты уходит не на сами веса модели, а на служебную информацию в оптимизаторе. Например, популярный алгоритм Adam хранит для каждого параметра две дополнительные величины: скользящие средние градиента и его квадрата. Для модели с 8 миллиардами параметров это означает дополнительные 64 гигабайта памяти — вместе с самой моделью получается больше, чем вмещают многие профессиональные серверные видеокарты.

Существующие методы экономии памяти, такие как LoRA и GaLore, решают проблему за счет работы в пространстве пониженной размерности. Однако при этом теряется часть информации из градиента, что может ухудшить результат обучения.

Авторы предложили принципиально иной подход: разделить пространство параметров на две части. Для первой части используется продвинутый оптимизатор (например, Adam), требующий хранения статистик. Для второй — простой метод без статистик, такой как signSGD, который не требует дополнительной памяти вовсе.

Ключевое наблюдение в том, что не все параметры модели одинаково «требовательны» к выбору оптимизатора. Эксперименты показали неожиданный результат: только выходной слой критически нуждается в Adam, тогда как остальные компоненты, включая слои нормализации и эмбеддинги, можно обучать простым signSGD практически без потери качества.

«Знаете, в некотором смысле это было очень похоже на то, как в OpenAI масштабировали обучение моделей для игры в Dota 2 — мы также были абсолютно уверены, что в какой-то момент с понижением размерности все сломается и результаты резко ухудшатся. Но мы продолжали и продолжали понижать размерность, а результаты практически не менялись. В итоге мы дошли до размерности 0, что фактически означает полное обучение простым signSGD. Это было очень неожиданно и довольно сильно противоречит общепринятой в области интуиции. Мы уже планируем следующий проект на основе этого результата», — рассказал Филипп Змушко, сотрудник BRAIn Lab МФТИ.

На задачах предобучения моделей семейства LLaMA (от 60 миллионов до трех миллиардов параметров) FRUGAL стабильно превосходит конкурирующие подходы GaLore и BAdam при одинаковом бюджете памяти. При этом метод практически не отстает от полнорангового Adam — стандартного алгоритма, который требует в несколько раз больше памяти для хранения состояния оптимизатора.

Авторы также доказали теоретические гарантии сходимости алгоритма, что подтверждает его надежность.

В работе приняли участие ученые из Центра агентных систем Института искусственного интеллекта МФТИ, «Яндекса» и Университета искусственного интеллекта имени Мохамеда бин Заида (ОАЭ).

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.

ФизТех

# большие языковые модели

# искусственный интеллект

# нейросети

# память

# технологии

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Квантовая механика от А до Я

Medio Modo

Москва

Лекция

14 Мар

Бесплатно

Восемь минут до космоса: старт и возвращение на космическом корабле «Союз»

Космонавтика и авиация

Москва

Лекция

14 Мар

Бесплатно

Мифы про космос и технологические решения для них

Экспериментаниум

Москва

Лекция

14 Мар

Бесплатно

Бог из машины: как нейронная сеть создает миры

ВДНХ

Москва

Экскурсия

14 Мар

Бесплатно

Межпланетные труженики

Космонавтика и авиация

Москва

Лекция

14 Мар

1400 ₽

Сердце: орган с историей

Medio Modo

Москва

Лекция

14 Мар

1500 ₽

Кооперация против конкуренции: как на самом деле выживали сообщества

Medio Modo

Москва

Лекция

15 Мар

1400 ₽

Млекопитающие выбирают воду

Medio Modo

Москва

Лекция

15 Мар

Бесплатно

Русский язык как донор: что мир заимствовал у нас

ВДНХ

Москва

Популярное

За сутки

За неделю

За месяц

12 марта, 07:55

Игорь Байдов

Биологи рассказали, как королевы шмелей дышат под водой

Каждую весну оплодотворенные матки шмелей выходят из зимовки и основывают новые колонии. Но как они умудряются выжить, если во время «спячки» их подземное убежище часто подтапливают талые или дождевые воды? Первыми на этот вопрос в 2024 году ответила команда канадских биологов. Они выяснили, что шмели способны безопасно проводить под водой до недели. Теперь другая группа ученых решила выяснить, какой именно физиологический механизм стоит за этим феноменом.

Биология

# вода

# насекомые

# шмели

# эксперимент

13 марта, 13:03

ФизТех

Российские ученые описали функции белка, который важен для развития нейродегенераций

Антиген стволовых клеток простаты (PSCA) — это белок, который участвует в патогенезе заболеваний предстательной железы. Его вторая роль касается развития болезни Альцгеймера и других неврологических патологий. Новая статья ученых из МФТИ и ИБХ РАН с соавторами описала структуру PSCA, его фармакологические свойства и участие в нейровоспалении, что поможет создать новые лекарства.

ФизТех

# белок

# биохимия

# болезнь Альцгеймера

# нейробиология

# нейродегенерация

# стволовая клетка

12 марта, 13:30

Александр Березин

Между NASA и SpaceX возник конфликт из-за ручной посадки на Луну

Существует мнение, что астронавты в космосе — «балласт». Но на практике в сложных условиях именно люди выполняют ключевую работу, а автоматы резко уступают им по возможностям. Поэтому научных работ по итогам лунных экспедиций людей было больше, чем по итогам работы на Луне всех автоматов за всю историю. Несмотря на это, существует серьезная вероятность того, что у нового американского средства доставки людей на Луну не будет возможности ручной посадки.

Космонавтика

# NASA

# космос

# Луна

# лунная гонка

10 марта, 14:47

ФизТех

Маятники тепла качнули арктическую зиму

Коллектив климатологов из Института географии РАН, Института физики атмосферы имени А. М. Обухова РАН и МФТИ разобрал одну из самых загадочных страниц климатической летописи: почему Арктика так резко потеплела в первой половине XX века, причем особенно сильно зимой. Ученые оценили, какую долю в тех температурных скачках могли сыграть «внутренние ритмы» атмосферы и океана Северного полушария и почему ответ меняется в зависимости от того, как именно отделять естественные колебания климата от внешних факторов вроде роста парниковых газов и загрязнения воздуха аэрозолями.

ФизТех

# арктика

# измерение температуры

# климат

# океан

# потепление климата

12 марта, 07:55

Игорь Байдов

Биологи рассказали, как королевы шмелей дышат под водой

Биология

# вода

# насекомые

# шмели

# эксперимент

8 марта, 10:58

Татьяна Зайцева

Челюсть доисторического крокодила заставила усомниться в существовании Еврогондваны

Согласно гипотезе о так называемой Еврогондване, в эпоху динозавров Европа, как часть северного суперконтинента Лавразия, еще не полностью отделилась от южного суперконтинента Гондвана и животные могли свободно мигрировать между Европой и Африкой. Однако новый анализ найденных в Венгрии костей первобытного крокодила показал, что его сходство с гондванскими видами обусловлено не близким родством, а схожим образом жизни.

Палеонтология

# древние виды

# крокодилы

# лавразия

# меловой период

# формирование континентов

3 марта, 14:06

Александр Березин

Россия вернула себе возможность пилотируемых космических полетов

В ноябре 2025 года при взлете российской ракеты с Байконура к МКС с существенной высоты упала кабина обслуживания 8У216. Поскольку в 2010-х годах из экономии средств у нас отказались от дублирования стартовых площадок, это создало ситуацию временной невозможности пилотируемых полетов. Теперь, всего через три месяца после происшествия, «Роскосмос» смог решить проблему, поставив запасную кабину обслуживания, найденную на складах Минобороны. Весенние пуски к МКС, запланированные ранее, теперь имеют шансы пройти в срок.

Космонавтика

# Байконур

# космонавтика

# космос

# Роскосмос

# Россия

5 марта, 08:10

Александр Березин

Иран против США: технологические возможности стран на поле боя

Одна сторона сыплет более дорогими и сложными баллистическими ракетами, другая — относительно дешевыми крылатыми. Но при этом первая на порядок беднее второй. А что у них с технологическим уровнем для наземной войны, и почему, кстати, глава второй избегает даже самого этого слова? Попробуем разобраться в реальных возможностях военных машин сторон потенциально самого опасного конфликта 2026 года.

Оружие и техника

# беспилотники

# военная техника

# ВПК

# ЗРК

# Израиль

# Иран

# сша

Выбор редакции

28 февраля, 16:50

Игорь Байдов

Ученые впервые доказали, что римляне добывали золото в испанских Пиренеях

В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.

Археология

# добыча полезных ископаемых

# Золото

# Рим

# Римская империя

[miniorange_social_login]

Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

По теме

Как уместить языковую модель в меньшую память: метод ProcrustesGPT

Ученые выяснили, как неизбежные дефекты влияют на работу сверхпроводниковых нейронов

Экономисты выяснили, что искусственный интеллект слишком хорошо думает о людях

Популярное

Биологи рассказали, как королевы шмелей дышат под водой

Российские ученые описали функции белка, который важен для развития нейродегенераций

Между NASA и SpaceX возник конфликт из-за ручной посадки на Луну

Маятники тепла качнули арктическую зиму

Биологи рассказали, как королевы шмелей дышат под водой

Челюсть доисторического крокодила заставила усомниться в существовании Еврогондваны

Россия вернула себе возможность пилотируемых космических полетов

Иран против США: технологические возможности стран на поле боя

Ученые впервые доказали, что римляне добывали золото в испанских Пиренеях

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Десять научных событий года: от изгнания темной материи до китайской катастрофы

Как это работает: камеры фиксации нарушений ПДД

Что такое микрочастицы и угрожают ли они человеку? А микропластик?

Нужна ли науке оригинальность?

Дети-маугли

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Живем ли мы в одноэлектронной Вселенной: гид по одной из самых экзотических гипотез

Черная желчь: что такое депрессия

Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

По теме

Как уместить языковую модель в меньшую память: метод ProcrustesGPT

Ученые выяснили, как неизбежные дефекты влияют на работу сверхпроводниковых нейронов

Экономисты выяснили, что искусственный интеллект слишком хорошо думает о людях

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?