19 мая, 12:45

ФизТех

Российские ученые научились определять идеальный объем данных для ИИ

❋ 4.4

Коллектив ученых из МФТИ разработал и теоретически обосновал два новых подхода к решению одной из фундаментальных проблем машинного обучения: определению достаточного размера выборки. Их работа предлагает измерять, насколько «уверенность» модели в своих параметрах меняется при добавлении или удалении всего одного элемента данных, используя для этого два различных математических инструмента.

ФизТех

# данные

# искусственный интеллект

# машинное обучение

# модель

Рисунок 1. С увеличением размера выборки расстояние Кульбака–Лейблера между соседними апостериорными распределениями уменьшается / © Никита Киселев, Андрей Грабовой, Computational Management Science.

Работа опубликована в журнале Computational Management Science. Машинное обучение и искусственный интеллект произвели революцию во многих сферах, от медицины до финансов и транспорта. В основе их успеха лежит способность обучаться на данных – чем больше качественных данных, тем, как правило, лучше работает модель. Однако сбор, разметка и обработка данных – это дорогостоящий и трудоемкий процесс. Кроме того, обучение сложных моделей на огромных массивах данных требует значительных вычислительных ресурсов.

Поэтому перед исследователями и инженерами всегда остро стоит вопрос: сколько данных достаточно. Слишком мало данных – и модель получится неточной, неспособной к обобщению на новые примеры (неадекватной). Слишком много – и мы потратим лишние время, деньги и вычислительные мощности без существенного улучшения результата. Найти ту «золотую середину», достаточный размер выборки, – критически важная задача при построении эффективной модели машинного обучения.

На протяжении десятилетий было предложено множество методов для оценки достаточного размера выборки. Несмотря на разнообразие подходов, многие существующие методы либо не имеют строгих доказательств своей корректности в общем случае, либо привязаны к специфическим статистическим гипотезам, либо сложны в применении. Оставалась потребность в методах, которые были бы одновременно теоретически обоснованы и практически применимы для оценки достаточности данных с точки зрения стабильности самой модели.

Исследователи из МФТИ Никита Киселев и Андрей Грабовой предложили взглянуть на проблему достаточности выборки под новым углом. Их ключевая идея проста и интуитивна: если данных уже достаточно, то добавление или удаление всего одного объекта не должно сильно менять «убеждения» модели о ее параметрах.

Математически эти «убеждения» выражаются через апостериорное распределение параметров – вероятностное описание того, какие значения параметров наиболее правдоподобны после анализа имеющихся данных. Задача свелась к тому, чтобы измерить, насколько близки апостериорные распределения, полученные на двух похожих подвыборках (например, на выборке из *k* объектов и на выборке из *k+1* объектов). Если это различие (или, наоборот, сходство) достигает определенного порога и перестает существенно меняться с дальнейшим увеличением *k*, можно считать, что выборка стала достаточной.

Авторы предложили и исследовали два конкретных способа измерения близости апостериорных распределений pₖ(w) (на *k* объектах) и pₖ₊₁(w) (на *k+1* объекте).

Первый из этих методов основан на расстоянии Кульбака–Лейблера. Это расстояние определяет величину расхождения между двумя распределениями, основываясь на теории информации. Оно равно величине потерь информации при замене первого из этих распределений на второе распределение при условии, что первое распределение мы считаем истинным, а второе предполагаемым (проверяемым).

Второй из этих методов основан на введенной в диссертации Александра Адуенко функции схожести s-score, которая оценивает близость двух распределений на основе степени их перекрытия друг к другу. Эта функция равна нулю, если они совсем не перекрываются, и стремится к единице, если распределения очень близки друг к другу.

Ключевой частью работы стало теоретическое обоснование двух новых методов. Ученые из МФТИ строго доказали, что если апостериорное распределение параметров модели является нормальным (гауссовым), то при увеличении размера выборки расстояние Кульбака–Лейблера действительно стремится к нулю, а s-score – к единице, при условии, что средние значения матрицы ковариации (Σₖ) этих распределений сходятся. Более того, для важного частного случая – линейной регрессии с нормальным априорным распределением (где апостериорное распределение как раз будет нормальным) – они доказали, что эти средние и ковариации действительно сходятся при довольно мягких условиях.

Для практической проверки теоретических выводов и сравнения методов были проведены обширные вычислительные эксперименты. На синтетических данных и реальном наборе данных было показано, что значения расстояния Кульбака–Лейблера действительно убывают к нулю, а s-score растут к единице с увеличением размера выборки *k*, как и предсказывает теория.

Рисунок 2. Синтетический регрессионный набор данных предоставляет результаты для сходимости предлагаемых функций оценки размера выборки. Левый соответствует расхождению Кульбака–Лейблера и стремится к нулю, тогда как правый стремится к единице, демонстрируя поведение функции сходства *s-score* / © Никита Киселев, Андрей Грабовой, Computational Management Science

Оба метода были применены к нескольким реальным наборам данных для задачи регрессии (Boston, Diabetes, Forestfires, Servo) и сравнены с девятью другими существующими методами (статистическими, байесовскими, эвристическими). Для сравнения использовался порог *ε = 0.05*. Исследовалось, как рекомендуемый достаточный размер выборки *m** меняется в зависимости от общего доступного размера выборки *m* для разных методов. Исследование принесло несколько важных результатов.

Сравнение методов между собой показало, что метод на основе расстояния Кульбака–Лейблера является более консервативным – он склонен требовать значительно больший размер выборки для достижения порога достаточности. Метод на основе s-score, напротив, оказался более оптимистичным, часто указывая на достаточность уже при небольших размерах выборки. Авторы исследования объясняют это тем, что s-score менее чувствителен к изменениям в «разбросе» (ковариации) распределения и был изначально разработан для сравнения моделей даже при неинформативных (широких) распределениях.

Рисунок 3. Набор данных Liver Disorders предоставляет результаты для сходимости предлагаемых функций оценки размера выборки. Слева у нас есть расхождение Кульбака–Лейблера, которое стремится к нулю по мере увеличения размера выборки. Справа у нас есть функция сходства s-score, которая стремится к единице по мере того, как размер выборки стремится к бесконечности / © Никита Киселев, Андрей Грабовой, Computational Management Science

«Вопрос ‛Хватит ли данных?‘ – один из самых насущных в современном машинном обучении, влияющий на стоимость и время разработки», – рассказал Андрей Грабовой, доцент кафедры интеллектуальных систем МФТИ. – «Мы предложили смотреть на стабильность ‛знаний‘ самой модели. Если добавление одного нового примера уже почти не меняет ее представлений о мире, возможно, пора остановиться. Наши методы дают два разных ‛измерителя‘ этой стабильности. KL-дивергенция подскажет, когда модель станет очень ‛уверенной‘ и стабильной, требуя больше данных, а s-score может сработать раньше, если мы готовы принять чуть большую неопределенность».

Никита Киселев, студент пятого курса МФТИ, добавил: «Мы предложили и обосновали два новых способа оценки достаточности данных, основанных на фундаментальном принципе стабильности модели. Они дают практические инструменты для принятия решений о сборе данных, причем выбор между ними позволяет быть либо более осторожным, либо более оптимистичным в своей оценке».

Понимание того, когда данных достаточно, критически важно для разработки любых ИИ-систем. Оно дает экономию ресурсов на всех этапах – от сбора и разметки данных до вычислений при обучении. Методы могут использоваться как для планирования, так и для мониторинга в процессе сбора данных.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.

ФизТех

# данные

# искусственный интеллект

# машинное обучение

# модель

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Как батониться по гари, чтобы не засилили

Центр «Архэ»

Онлайн

Библиотека им. Н. А. Некрасова

Москва

Лекция

19 Авг

Бесплатно

Архитектурные утопии XX века

Библиотека им. М. Ю. Лермонтова

Санкт-Петербург

Лекция

19 Авг

Бесплатно

Русские мифы: как и зачем их исследуют ученые?

Альпина нон-фикшн

Москва

Библиотека им. М. Ю. Лермонтова

Санкт-Петербург

Лекция

20 Авг

Бесплатно

Русское зарубежье и советские граждане в Движении Сопротивления

Библиотека иностранной литературы

Москва

Лекция

20 Авг

700 ₽

Неожиданная биология: ключевые открытия июля

Центр «Архэ»

Онлайн

Лекция

20 Авг

Бесплатно

Пять принципов здоровья

ВДНХ

Москва

Лекция

21 Авг

Бесплатно

Зоопарки Юго-Восточной Азии: оазисы биоразнообразия

Московский зоопарк

Москва

Популярное

За сутки

За неделю

За месяц

16 августа, 19:09

Адель Романова

На третьем межзвездном объекте нашли воду, и для кометы он выделяет ее необычно интенсивно

Астрономы подсчитали, что с поверхности летящего по Солнечной системе межзвездного объекта 3I/ATLAS каждую секунду испаряется около 40 килограммов водяного льда. Такую сильную кометную активность он проявил, будучи в три с половиной раза дальше Земли от Солнца. По мнению ученых, это довольно необычно.

Астрономия

# кометы

# космос

# межзвездная комета

# межзвездные объекты

# Солнечная система

16 августа, 11:58

Александр Березин

Нетронутые липиды позволят марсоходам найти жизнь уже существующими инструментами

Новый подход к быстрому поиску жизни может однозначно обнаруживать ее всего одним инструментом. Он уже есть на борту обоих действующих американских марсоходов. Правда, NASA может не захотеть воспользоваться этой возможностью.

Космонавтика

# внеземная жизнь

# космонавтика

# марс

16 августа, 14:31

Редакция Naked Science

Научно-фантастические миры Шона Харгривза

Цифровой художник Шон Харгривз в своих концептуальных работах погружает в брутальный мир научной фантастики.

Sci-Fi

# sci-fi art

# концепт-арт

# научная фантастика

# футуризм

# цифровое искусство

# цифровой художник

16 августа, 19:09

Адель Романова

На третьем межзвездном объекте нашли воду, и для кометы он выделяет ее необычно интенсивно

Астрономия

# кометы

# космос

# межзвездная комета

# межзвездные объекты

# Солнечная система

12 августа, 11:29

Юлия Трепалина

Психологи узнали, в каких парах любовь сильнее — у нашедших друг друга онлайн или в жизни

Влияет ли формат знакомства на качество последующих романтических отношений в паре? Научные данные на этот счет разнятся. Новое исследование по вопросу представила группа психологов из Польши, Австралии и Великобритании. В попытке понять, при каком сценарии удовлетворенность отношениями выше, а любовь крепче — когда двое нашли друг друга в Сети или познакомились в жизни, — ученые опросили свыше 6000 тысяч человек из разных стран.

Психология

# знакомство

# интернет

# любовь

# онлайн-знакомство

# романтические отношения

# удовлетворенность отношениями

16 августа, 11:58

Александр Березин

Нетронутые липиды позволят марсоходам найти жизнь уже существующими инструментами

Космонавтика

# внеземная жизнь

# космонавтика

# марс

25 июля, 07:47

Адель Романова

У третьего межзвездного объекта нашли признаки управляемого корабля

Прибывшая из межзвездного пространства предполагаемая комета 3I/ATLAS движется по траектории, максимально удобной для гравитационных маневров управляемого корабля, при этом возможность ее отслеживания с Земли практически минимальна. По мнению некоторых ученых, такое «поведение» объекта наводит на определенные мысли.

Астрономия

# внеземные цивилизации

# космос

# межзвездная комета

# межзвездные зонды

# межзвездные объекты

6 августа, 20:59

Татьяна Пичугина

Ученые добыли новые доказательства столкновения с кометой 12 800 лет назад

Примерно 12 800 лет назад в Северном полушарии началось резкое изменение климата, которое сопровождалось вымиранием мегафауны и угасанием культуры Кловис. Такое могло произойти, например, из-за прорыва пресных вод в Атлантику или мощного вулканического извержения. Несколько лет назад ученые обнаружили места на суше с повышенным содержанием элементов платиновой группы, прослоями угля, микрочастицами расплава. По их мнению, это может быть признаком пребывания Земли в потоке обломков кометы или астероида. В новой работе впервые представлены доказательства кометного события в позднем дриасе из морских осадочных толщ.

Геология

# Атлантический океан

# комета

# морское дно

# платина

# событие позднего дриаса

22 июля, 14:44

ФизТех

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет. Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста.

ФизТех

# ChatGPT

# нейросети

# ошибки

# слова

# текст

[miniorange_social_login]

Российские ученые научились определять идеальный объем данных для ИИ

По теме

Ученые выяснили, сколько данных нужно для искусственного интеллекта

Искусственный интеллект DeepMind победил людей в кооперативной игре Quake III Arena

ИИ научили находить ожирение из космоса

Популярное

На третьем межзвездном объекте нашли воду, и для кометы он выделяет ее необычно интенсивно

Нетронутые липиды позволят марсоходам найти жизнь уже существующими инструментами

Научно-фантастические миры Шона Харгривза

На третьем межзвездном объекте нашли воду, и для кометы он выделяет ее необычно интенсивно

Психологи узнали, в каких парах любовь сильнее — у нашедших друг друга онлайн или в жизни

Нетронутые липиды позволят марсоходам найти жизнь уже существующими инструментами

У третьего межзвездного объекта нашли признаки управляемого корабля

Ученые добыли новые доказательства столкновения с кометой 12 800 лет назад

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Почему эволюция на островах идет быстрее?

Матриархат жив!

Синдром Снежаны: как социальные сети повышают самооценку

С точки зрения науки: целители

Марсианская реальность: Настоящие технологии в фантастическом фильме

Галлюцинации и «библия для неграмотных»: психология средневекового человека

«Вашингтонская карусель»: НЛО над столицей

Дайджест Naked Science

Российские ученые научились определять идеальный объем данных для ИИ

По теме

Ученые выяснили, сколько данных нужно для искусственного интеллекта

Искусственный интеллект DeepMind победил людей в кооперативной игре Quake III Arena

ИИ научили находить ожирение из космоса

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Хотите
вести колонку
в нашем
издании?