29 апреля, 13:15

ФизТех

6,7 тыс

Ученые обнаружили предел полезности данных для обучения нейросетей

❋ 4.4

Исследователи из МФТИ впервые систематически изучили, как изменяется и стабилизируется процесс обучения нейронных сетей по мере добавления новых данных. Их работа, сочетающая теоретический анализ и обширные эксперименты, показывает, что так называемый «ландшафт функции потерь» нейросети сходится к определенной форме при увеличении размера выборки, что имеет важные последствия для понимания глубинного обучения и разработки методов определения необходимого объема данных.

ФизТех

# данные

# математическая модель

# нейронные сети

# нейросети

# обучение

Рисунок 1. (a) ландшафт функции потерь, который является поверхностью в пространстве параметров. (b) разница потерь, которая возникает, когда к набору данных добавляется еще один объект / © Kiselev, N.S., Grabovoy, A.V., Doklady Mathematics

Исследование опубликовано в Doklady Mathematics. Нейронные сети — мощный инструмент современного искусственного интеллекта, лежащий в основе множества технологий, от распознавания лиц на смартфонах до беспилотных автомобилей и медицинских диагнозов. Эти сложные математические модели, вдохновленные строением человеческого мозга, обучаются на огромных массивах данных. Процесс обучения, по сути, является поиском оптимальных настроек параметров нейронной сети, которые минимизируют ошибки предсказаний.

Ключевым понятием здесь является функция потерь. Это математическая мера того, насколько «неправильно» работает нейросеть на данном этапе обучения. Чем ниже значение функции потерь, тем лучше сеть справляется с задачей. Эту функцию можно изобразить подобно тому, как изображают карту местности с горами и долинами. Каждая точка на этой карте соответствует определенному набору параметров нейросети, а высота в этой точке — значению функции потерь. Такая многомерная «карта» называется ландшафтом функции потерь.

Обучение нейросети — это как спуск с горы в самую глубокую долину на этой карте. Однако ландшафт потерь современных нейросетей чрезвычайно сложен, с бесчисленным количеством «локальных минимумов» (небольших долин) и потенциально одним или несколькими «глобальными минимумами» (самыми глубокими точками). Найти хороший минимум — непростая задача.

Ученые давно изучают геометрию этого ландшафта. Например, известно, что более «плоские», широкие долины часто соответствуют моделям, которые лучше обобщают – то есть хорошо работают не только на обучающих данных, но и на новых, ранее не виданных примерах. Для анализа формы ландшафта, особенно кривизны вокруг минимумов, используется математический инструмент — матрица Гессе, содержащая вторые производные функции потерь. Анализ спектра Гессиана (набора его собственных значений) выявил характерные особенности: большинство значений близки к нулю, но есть и несколько больших значений, указывающих на направления резкого изменения потерь.

Однако, несмотря на значительный прогресс в понимании «статичной» геометрии ландшафта для заданного набора данных, оставался открытым фундаментальный вопрос: как этот ландшафт изменяется, когда мы добавляем в обучающую выборку новые данные? Становится ли он стабильнее? Сходится ли к какой-то определенной форме? Именно эту «белую зону» и взялись исследовать авторы новой работы.

Исследователи из МФТИ поставили перед собой четкую цель: понять и количественно описать, как меняется ландшафт функции потерь – в частности, значение самой функции потерь в окрестности найденного минимума – при добавлении в обучающую выборку всего одного нового объекта. Их интересовало, будет ли эта разница уменьшаться с ростом общего числа объектов, и если да, то с какой скоростью.

Они сначала обучали сеть на всем доступном наборе данных, чтобы найти точку минимума (или близкую к нему). Затем они брали подмножества данных разного размера (от малого до большого), добавляли по одному объекту и измеряли, насколько в среднем изменяется значение функции потерь в найденной точке минимума. Этот процесс повторялся многократно для усреднения результатов. Эксперименты проводились как с использованием сырых пикселей изображений в качестве входа, так и с использованием признаков, предварительно извлеченных из изображений с помощью мощной предобученной модели.

И теоретический анализ, и экспериментальные данные привели к одному и тому же выводу: ландшафт функции потерь действительно стабилизируется (почти перестает меняться) по мере увеличения размера выборки. Теоретический анализ показал, что разница между средним значением потерь для выборки из k+1 объекта и выборки из k объектов (в окрестности минимума) стремится к нулю, когда k стремится к бесконечности. При этом полученная верхняя граница для этой разницы убывает примерно как 1/k (сублинейная скорость сходимости). Теоретические оценки также предсказали, как на эту сходимость влияют параметры сети: увеличение числа слоев L может замедлить сходимость (экспоненциальная зависимость в оценке), в то время как влияние ширины слоев h оказалось более сложным (степенная зависимость, но с множителем, зависящим от величины весов сети).

Эксперименты подтвердили результаты теоретического анализа на всех использованных наборах данных и для разных архитектур. Во всех экспериментах наблюдалось четкое уменьшение разницы значений функции потерь при увеличении размера выборки, что подтверждает теоретический вывод о сходимости. Влияние архитектуры также качественно совпало с теорией: добавление слоев действительно несколько увеличивало измеряемую разницу (замедляло сходимость), а увеличение ширины слоев, вопреки интуиции и грубой теоретической оценке, уменьшало разницу.

Исследователи объясняют это тем, что для относительно простых задач классификации изображений более широкие сети достигают лучших (более низких) значений потерь, и их ландшафт быстрее стабилизируется, а также тем, что константы, ограничивающие веса сети на практике, могут быть малы. Важно, что сходимость наблюдалась независимо от того, подавались ли на вход сети сырые пиксели или предобработанные признаки.

«Мы привыкли думать о ландшафте потерь как о статичной карте для конкретного набора данных, – рассказал Андрей Грабовой, доцент кафедры интеллектуальных систем МФТИ – Наша работа показывает его динамическую природу: как он ‘устаканивается’ и перестает существенно меняться по мере того, как сеть ‘видит’ все больше и больше примеров. Это предсказуемое поведение открывает двери к пониманию того, когда дальнейшее увеличение данных уже не приносит кардинальных изменений в локально выученную модель, что критически важно для эффективного обучения».

Никита Киселев, студент пятого курса МФТИ, добавил: «Главный результат нашего исследования в том, что мы впервые систематически исследовали вопрос о влиянии размера выборки на геометрию ландшафта потерь. Предыдущие исследования фокусировались либо на статичной геометрии для фиксированного датасета, либо на динамике обучения во времени (по итерациям оптимизации), но не на том, как сам ландшафт эволюционирует с количеством данных. Мы не только поставили этот вопрос, но и предоставили теоретический анализ сходимости, осуществив вывод математических оценок скорости стабилизации ландшафта, показали, как количество слоев нейронной сети и их ширина влияют на эту сходимость, а также проверили выводы на практике на реальных задачах».

Понимание того, что ландшафт потерь сходится, имеет значительные практические последствия. Самое очевидное из них заключается в том, что на основе этого можно разработать методы, которые отслеживают эту стабилизацию в процессе добавления данных и позволяют эффективно определять достаточный размер выборки. Как только ландшафт перестает существенно меняться, можно сделать вывод, что для данной архитектуры и задачи данных, вероятно, достаточно. Это позволит экономить огромные ресурсы на сбор, разметку и обработку избыточных данных, а также на вычислительные мощности для обучения.

Менее очевидные применения связаны с тем, что понимание того, как меняется ландшафт функции потерь, может помочь в разработке более оптимальных вычислительных архитектур и более эффективных адаптивных алгоритмов машинного обучения нейронных сетей.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.

ФизТех

# данные

# математическая модель

# нейронные сети

# нейросети

# обучение

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Что общего у автомагистралей с египетскими мумиями?

Библиотека Планетарий 1

Санкт-Петербург

Лекция

28 Ноя

Бесплатно

Слова, строящие мосты

Библиотека им. Н. А. Некрасова

Москва

Лекция

28 Ноя

750 ₽

Взаимодействие аллелей одного гена. Взаимодействие генов

Центр «Архэ»

Онлайн

Лекция

29 Ноя

Бесплатно

Русские в Калифорнии и на Аляске

Библиотека иностранной литературы

Москва

Лекция

29 Ноя

Бесплатно

На пути к искусственной гравитации

Космонавтика и авиация

Москва

Лекция

29 Ноя

Бесплатно

Да никто в Москве так не говорит!

ВДНХ

Москва

Лекция

29 Ноя

1000 ₽

Следы забытых богов Древней Греции

Medio Modo

Москва

Лекция

29 Ноя

1300 ₽

Черная дыра: от рождения до полного исчезновения

Medio Modo

Санкт-Петербург

Лекция

29 Ноя

1000 ₽

Остеопатическая медицина: островок в океане иллюзий

ВСмысле

Санкт-Петербург

Популярное

За сутки

За неделю

За месяц

26 ноября, 12:39

Игорь Байдов

Налоги на урожай, а не сельское хозяйство в целом, подтолкнули людей к созданию первых государств

Что стало настоящим фундаментом власти — умение обрабатывать землю или контроль над некоторыми культурными растениями? Авторы нового исследования пришли к выводу, что появление первых крупных сообществ и государств зависело не от земледелия в целом, а от выращивания определенных злаков. Эти культуры было легко хранить и, еще важнее, невероятно просто облагать налогом, что и дало толчок появлению цивилизации.

История

# земледелие

# зерновые культуры

# письменность

# сельское хозяйство

27 ноября, 11:05

Игорь Байдов

Каменные идолы острова Пасхи оказались результатом соперничества независимых общин

Долгое время ученые полагали, что сотни гигантских статуй на острове Пасхи создали представители местной общины под руководством одного вождя. Однако авторы нового исследования поставили эту гипотезу под сомнение. Детальная трехмерная карта главного каменного карьера острова указала на более сложную картину. Вероятно, монументы были плодом творчества и соперничества небольших независимых групп.

Антропология

# остров Пасхи

# Полинезия

# статуи

27 ноября, 20:20

Максим Абдулаев

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

Археология

# алкоголь

# античность

# вино

# виноделие

# дрожжи

# история

# микробиология

21 ноября, 10:02

ПНИПУ

Зумеры против альфа: сравнение цифровых привычек, мышления и жизненных стратегий

Так называемые зумеры и альфа, несмотря на молодой возраст, уже формируют ключевые поведенческие и потребительские тренды. Ученые Пермского Политеха рассказали, почему обозначение поколений начали с конца алфавита, как альфа и зумеры отличаются в способности к терпеливости, совмещении цифрового и реального «Я», подходу к профессиональной деятельности и отношении к финансам, какое мышление пришло на смену клиповому и как использование искусственного интеллекта повлияет на авторитет родителей.

ПНИПУ

# демография

# зумеры

# интернет

# молодежь

# общество

# подростки

# поколения

# теория поколений

26 ноября, 16:18

ФизТех

Тайная архитектура пьезокерамики: как атомная симметрия породила уникальные свойства материалов

Коллектив российских ученых из МИРЭА — Российского технологического университета, Центра фотоники двумерных материалов МФТИ, Института металлургии и материаловедения им. А. А. Байкова РАН и ряда других ведущих научных центров провел глубокое исследование кристаллической структуры широко используемых пьезоэлектрических материалов на основе цирконата-титаната свинца. Используя метод рентгеноструктурного анализа, исследователи впервые смогли в деталях установить, как небольшие химические добавки кардинально меняют фазовый состав керамики и напрямую определяют ее электрофизические характеристики. Это открывает путь к целенаправленному дизайну «умных» материалов с заранее заданными свойствами для передовой электроники и сенсорики.

ФизТех

# атомная структура

# керамика

# кристаллическая решетка

# материал

# пьезоэлектрика

# структура

26 ноября, 17:00

Курчатовский институт

Ученые разработали штамм цианобактерии, способный поглощать в три раза больше фосфора из сточных вод

Фосфор – элемент, играющий ключевую роль в росте растений. В сельском хозяйстве он используется в составе многих минеральных удобрений. В то же время фосфор, содержащийся в сточных водах — серьезный загрязнитель, который при попадании в водоемы нарушает баланс экосистем и вызывает цветение водорослей. Ученые Национального исследовательского центра «Курчатовский институт» и Южного федерального университета предложили новый экологичный способ выделения фосфора из сточных вод с помощью фотосинтезирующих микроорганизмов.

Курчатовский институт

# бактерии

# биоуголь

# сточные воды

# фосфор

# цианобактерии

# экология

20 ноября, 13:12

Полина Меньшова

Анализ 2430 языков показал сходства и различия их правил грамматики

Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.

Психология

# грамматика

# лингвистика

# морфология

# синтаксис

# языки

8 ноября, 18:29

Адель Романова

Астрономы вычислили, откуда на Землю прилетают межзвездные объекты

По расчетам, большинство «гостей» из других звездных систем летят к Земле примерно со стороны созвездия Геркулес. Скорее всего, они время от времени падают на нашу планету, просто мы еще не научились это замечать. Как удалось вычислить, чаще всего они должны падать зимой и где-то в окрестностях экватора.

Астрономия

# космос

# межзвездные объекты

# Солнечная система

12 ноября, 10:47

Максим Абдулаев

Бактерии со сломанными жгутиками поплыли вперед на собственных продуктах жизнедеятельности

Ученые открыли новый, ранее неизвестный способ передвижения бактерий по поверхностям, для которого не нужны жгутики. Эти микроорганизмы на краю колонии переваривают сахара, выделяют метаболиты и создают осмотическое давление. Оно вызывает микроскопическое «цунами», и на нем бактерии катятся вперед.

Биология

# бактерии

# жгутики

# локомоция

# микробиология

[miniorange_social_login]

Обучение бывает глубоким. Глубинным - погружение на дно. Такие тяжелые темы в научно-популярных статьях начинают с базовых вещей - обратного распространения ошибки, градиентного спуска. И не путают параметры и гиперпараметры моделей. Статью желательно переписать после консультаций с первоисточником из МФТИ.

Ответить

Дождиков Антон

04.05.2025

Ответить

Ученые обнаружили предел полезности данных для обучения нейросетей

По теме

Ученые упростили и ускорили дообучение нейросетей

Российские ученые вывели искусственный интеллект на новый этап в прогнозировании погоды

Ученые Пермского Политеха улучшили обнаружение объектов нейронными сетями

Популярное

Налоги на урожай, а не сельское хозяйство в целом, подтолкнули людей к созданию первых государств

Каменные идолы острова Пасхи оказались результатом соперничества независимых общин

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Зумеры против альфа: сравнение цифровых привычек, мышления и жизненных стратегий

Тайная архитектура пьезокерамики: как атомная симметрия породила уникальные свойства материалов

Ученые разработали штамм цианобактерии, способный поглощать в три раза больше фосфора из сточных вод

Анализ 2430 языков показал сходства и различия их правил грамматики

Астрономы вычислили, откуда на Землю прилетают межзвездные объекты

Бактерии со сломанными жгутиками поплыли вперед на собственных продуктах жизнедеятельности

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 65

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Как мы умрем: рейтинг причин человеческой смертности

Гости из будущего: эсминцы и фрегаты

Неумолимая стрела времени: почему время движется только вперед

Коронавирус, инкубационный период и самолеты: хорошие, плохие и никакие новости

Непростой выбор: кто построит модульную АЭС для Армении

Mobile World Congress — 2019: все самое интересное

У истории под юбкой: почему происходят сексуальные революции

Лекарство от здоровья: как работает допинг

Ученые обнаружили предел полезности данных для обучения нейросетей

По теме

Ученые упростили и ускорили дообучение нейросетей

Российские ученые вывели искусственный интеллект на новый этап в прогнозировании погоды

Ученые Пермского Политеха улучшили обнаружение объектов нейронными сетями

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 65

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?