Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Исследователи Яндекса разработали новую нейросетевую архитектуру для работы с табличными данными
Лаборатория исследований искусственного интеллекта Yandex Research представила нейросетевую архитектуру для работы с табличными данными — TabM. Разработка позволяет быстро обрабатывать большие массивы данных и строить высокоточные прогнозы при умеренном использовании вычислительных ресурсов. Подобные модели могут использоваться в самых разных областях, от прогнозирования энергопотребления до классификации пациентов по риску заболеваний.
Научная работа о модели была представлена на ICLR — одной из крупнейших в мире конференций по искусственному интеллекту. Статья также опубликована в архиве научных статей препринтов Корнеллского университета. Сама архитектура выложена в открытом доступе на GitHub.
Классические модели градиентного бустинга на решающих деревьях (CatBoost, XGBoost, LightGBM) традиционно считались стандартом для работы с табличными данными. В последние годы для этих задач также активно разрабатываются нейросетевые архитектуры — от простых многослойных перцептронов (MLP) до более сложных моделей на основе трансформеров и retrieval-механизмов. При этом вопросы стабильности и эффективности новых методов на широком спектре табличных задач, а также возможности их практического применения, оставались открытыми.
В своей работе исследователи из лаборатории Yandex Research обратили внимание на потенциал улучшения MLP за счет параметро-эффективного ансамблирования. Они предложили архитектуру TabM, созданную на основе многослойного перцептрона с применением модифицированной техники BatchEnsemble. Внутри одной нейросетевой модели формируется несколько виртуальных подмоделей с частично общими параметрами, предсказания которых затем усредняются.
Такой подход позволил TabM не только превзойти базовые MLP и более сложные современные нейросетевые решения для табличных данных, но и достичь качества, сопоставимого или превосходящего лучшие классические модели градиентного бустинга. Тестирование проходило на 46 наборах данных, причем среднее место TabM в тестах оказалось между первым и вторым (усредненно 1,7).
Это очень хороший результат, потому что в норме подобные модели делают точные прогнозы только для некоторых наборов данных, под которые их оптимизировали при разработке. Обычная модель редко занимает первые и вторые места сразу в десятках наборах данных. Например, ближайший конкурент TabM в среднем занимал места, ближе к третьему (2,9).
То есть TabM оказалась лидером по универсальности. Это важно, поскольку разрабатывать специализированную модель под каждый новый набор данных долго, дорого и не всегда гарантирует наилучшее качество. В отличие от альтернативных MLP-решений, архитектура TabM универсальна: ее можно применять без глубокой донастройки. Таким образом, специалисты получают новый эффективный и более легкий в использовании инструмент.
На практике TabM уже применили на Kaggle. Это платформа международных соревнований по анализу данных и машинному обучению от Google. Среди задач, для которых применяли TabM, было, например, предсказание выживаемости пациентов после трансплантации костного мозга. Сперва, при обучении, в модель загружали таблицу с данными пациентов с аналогичными диагнозами, в которых было указано, выжил пациент или нет. Затем обученная модель получала данные по нынешним пациентам и делала прогноз по их выживанию.
С 2019 года исследователи Yandex Research опубликовали восемь научных статей по глубокому обучению моделей для работы с табличными данными. В общей сложности статьи получили более 1900 цитирований. В частности, статью о TabM цитировали Университет Мангейма (Германия), Национальный университет Сингапура, Корейский университет, Иллинойсский университет в Урбане-Шампейне (США). В разные годы статьи были приняты на самые влиятельные конференции по ИИ, в том числе NeurIPS, ICLR и ICML.
В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.
Ученые предложили новый способ оценки текущего темпа экспансии Вселенной с помощью едва уловимиого космического гравитационного «гула» от слияний неразличимых компактных объектов. Объединив данные наблюдений наземных интерферометров и статистику не выявленных сигналов, астрофизики получили уточненные ограничения параметра, вокруг которого разгорается один из самых острых споров в современной космологии.
Разное отношение домашних животных к хозяевам давно стало предметом споров, обсуждений и шуток. Ученые из Венгрии показали, что собаки демонстрируют по отношению к человеку уровень альтруизма, сходный с детским, тогда как кошки ищут в партнерстве с человеком прежде всего свою выгоду.
В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.
В мире оказалось гораздо больше диких пчел, чем кто-либо мог предположить. Ученые впервые оценили, сколько видов пчел существует на Земле, и обнаружили, что показатель превышает 26 тысяч — примерно на четверть больше, чем считалось.
Разное отношение домашних животных к хозяевам давно стало предметом споров, обсуждений и шуток. Ученые из Венгрии показали, что собаки демонстрируют по отношению к человеку уровень альтруизма, сходный с детским, тогда как кошки ищут в партнерстве с человеком прежде всего свою выгоду.
Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.
«Любить лишь можно только раз», — писал поэт Сергей Есенин, а герои культовых сериалов приходили к выводу, что «настоящая» влюбленность случается в жизни максимум дважды. Однако ни один из этих тезисов не подкреплен научными данными. Американские исследователи подошли к вопросу иначе: опросили более 10 тысяч человек и вывели среднее число сильных влюбленностей, возможных в течение жизни.
В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии