Ученые нашли способ ускорить оптимизацию нейросетей до 500 раз при помощи законов физики
Исследователи Лаборатории социальной и когнитивной информатики НИУ ВШЭ — Санкт-Петербург под руководством Сергея Кольцова научились уменьшать размер нейронных сетей быстро и без потери качества благодаря методам статистической физики.
Современные нейронные сети становятся все мощнее, однако их рост создает серьезные ограничения. Модели вроде GPT содержат десятки и сотни миллиардов параметров — чисел, через которые проходит информация при обработке запроса. Но вместе с качеством увеличивается стоимость создания и использования ИИ.
«Крупнейшие модели требуют сотен гигабайт памяти: это создает экономический барьер и ограничивает доступ к технологиям, — пояснил руководитель исследования Сергей Кольцов. — Мы решили проанализировать поведение нейронной сети во время сжатия и сопоставить его с известными функциями из статистической физики».
Проблема сжатия особенно актуальна там, где данные нельзя передавать во внешние облачные сервисы. Банки работают в закрытых контурах, медицинские учреждения защищают информацию о пациентах, государственные организации не могут делиться конфиденциальными сведениями. Всем им нужны эффективные, но компактные решения, способные работать на локальном оборудовании — от сервера в собственном дата-центре до обычного ноутбука врача.
Существующие методы сжатия нейросетей основаны на простой идее: не все параметры модели одинаково важны для ее работы. Некоторые можно удалить практически без последствий. Сложность в том, чтобы понять, какие именно. Классический подход требует проводить множество экспериментов, постепенно изменяя степень сжатия и каждый раз проверяя точность работы модели. Это занимает большое количество времени.
«Наша точка зрения позволяет посмотреть на нейронную сеть как на статистическую систему. Это раздел науки, изучающий поведение объектов с огромным числом элементов: от молекул газа до магнитных материалов. Нейронная сеть с миллиардами параметров оказалась похожа на такие структуры. В точках экстремума — максимума или минимума — модель сохраняет оптимальное соотношение между размером и качеством работы. То есть мы доказали, что этот подход позволяет ускорить поиск оптимального количества алгоритмов в сотни раз», — рассказал профессор департамента информатики НИУ ВШЭ — Санкт-Петербург.
Исследовательская группа из четырех человек — трое российских ученых и специалист из Индии — работала над проектом с начала 2025 года. Результаты работы опубликованы в журнале Physica A: Statistical Mechanics and its Applications.
Важно было проверить универсальность метода. Эксперименты проводились на моделях среднего размера — от семи до десяти миллиардов параметров. Это те системы, которые можно запустить на мощном ноутбуке или небольшом сервере. Именно такие решения нужны медицинским ассистентам, корпоративным аналитическим системам, локальным сервисам обработки данных.
«Мы тестировали гипотезу на моделях разного масштаба и назначения — от обработки текстов до распознавания изображений, — пояснил Кольцов. — Метод показал свою эффективность на разных архитектурах. Где-то лучше, где-то чуть хуже, но главное — он работал, и работал быстро. В зависимости от модели ускорение составило от десяти до пятисот раз по сравнению с традиционным подходом».
Метод уже доступен для использования. Любой разработчик или исследователь может применить описанный подход к своим моделям. Это особенно актуально для компаний и организаций, которые запускают нейросети на собственном оборудовании с ограниченными ресурсами.
Сейчас ученые продолжают работу, оптимизируя количество нейронов в каждом слое сети. Далее планируется сократить число блоков в архитектуре модели. Сколько их нужно для оптимальной работы — вопрос, на который сегодня нет четкого ответа. «Если научиться определять оптимальное количество блоков до начала обучения модели, экономия будет колоссальной. Это наша следующая цель», — отметил ведущий научный сотрудник Лаборатории социальной и когнитивной информатики.
Хотя сам факт наличия непонятных объектов на снимках, которые американские астронавты сделали на Луне, известен давно, десятилетиями их списывали на химические дефекты светочувствительной эмульсии фотопленки или блики света в линзах камер. Новая публикация на сайте Пентагона признает их реально существующими объектами, хотя и не делает выводов о их природе.
Крупные травоядные утконосые майазавры известны своим развитым социальным поведением. Они жили семьями и строили гнезда для своих детенышей. Даже название вида переводится с греческого языка как «ящер — хорошая мать». Исследование окаменелых зубов майазавров показало, что они выращивали детенышей совсем не так, как это считалось типичным для животных глубокой древности.
Десятого мая 1940 года вермахт пришел в движение. Через 42 суток англо-французские армии были разгромлены, а Франция капитулировала. Как это произошло, ведь союзники имели больше солдат, танков и пушек, чем немцы? В СССР причиной посчитали нежелание французов воевать, немцы же, говорили советские военные, не внесли в стратегию ничего нового. Реальность была строго обратной: разгром Франции был новым словом в войне, и такой же сценарий Гитлер применил против СССР через год. Что именно произошло и отчего советское руководство не смогло осознать случившееся?
Нейробиологи СПбГУ продемонстрировали, что активация рецептора следовых аминов TAAR1 эффективно подавляет агрессивное поведение, вызванное полным отсутствием серотонина в мозге. В дальнейшем этот результат поможет в разработке лекарственных препаратов, направленных на коррекцию патологических форм агрессии, возникающих при посттравматическом стрессовом расстройстве (ПТСР) и шизофрении.
Крупные травоядные утконосые майазавры известны своим развитым социальным поведением. Они жили семьями и строили гнезда для своих детенышей. Даже название вида переводится с греческого языка как «ящер — хорошая мать». Исследование окаменелых зубов майазавров показало, что они выращивали детенышей совсем не так, как это считалось типичным для животных глубокой древности.
Астрономы впервые использовали гравитационные волны, чтобы косвенно оценить параметры одного из ключевых процессов термоядерного горения в массивных светилах. Именно от него зависит, какие звезды взрываются, какие превращаются в черные дыры и как во Вселенной появляются углерод и кислород — элементы, без которых не было бы ни планет, ни жизни.
В последнее время пуски с российских северных космодромов осуществляют без предварительного уведомления, чего не было в прошлом. Вероятно, дело в недавно упомянутых главой «Роскосмоса» атаках на Плесецк во время пуска. Сегодняшний запуск обеспечил вывод на орбиту космических аппаратов военного назначения.
Химические связи в материале, из которого сделана электроника, разрываются не из-за накопительного износа от протекания тока через них, а из-за электронов с конкретной энергией.
Термоядерные электростанции не смогут конкурировать по цене с возобновляемыми источниками энергии из-за медленного удешевления технологии. По расчетам, расходы на каждую новую установку падали максимум на 8% — много раз ниже ранних ожиданий венчурных инвесторов. Это перечеркивает экономический смысл финансовых вливаний, и мир может никогда не увидеть дешевой термоядерной энергии.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
