• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
31.07.2025, 12:03
Редакция Naked Science
999

Исследователи Яндекса разработали новую нейросетевую архитектуру для работы с табличными данными

❋ 4.7

Лаборатория исследований искусственного интеллекта Yandex Research представила нейросетевую архитектуру для работы с табличными данными — TabM. Разработка позволяет быстро обрабатывать большие массивы данных и строить высокоточные прогнозы при умеренном использовании вычислительных ресурсов. Подобные модели могут использоваться в самых разных областях, от прогнозирования энергопотребления до классификации пациентов по риску заболеваний.

Общая схема TabM / © Yury Gorishniy et al.

Научная работа о модели была представлена на ICLR — одной из крупнейших в мире конференций по искусственному интеллекту. Статья также опубликована в архиве научных статей препринтов Корнеллского университета. Сама архитектура выложена в открытом доступе на GitHub.

Классические модели градиентного бустинга на решающих деревьях (CatBoost, XGBoost, LightGBM) традиционно считались стандартом для работы с табличными данными. В последние годы для этих задач также активно разрабатываются нейросетевые архитектуры — от простых многослойных перцептронов (MLP) до более сложных моделей на основе трансформеров и retrieval-механизмов. При этом вопросы стабильности и эффективности новых методов на широком спектре табличных задач, а также возможности их практического применения, оставались открытыми.

В своей работе исследователи из лаборатории Yandex Research обратили внимание на потенциал улучшения MLP за счет параметро-эффективного ансамблирования. Они предложили архитектуру TabM, созданную на основе многослойного перцептрона с применением модифицированной техники BatchEnsemble. Внутри одной нейросетевой модели формируется несколько виртуальных подмоделей с частично общими параметрами, предсказания которых затем усредняются.

Такой подход позволил TabM не только превзойти базовые MLP и более сложные современные нейросетевые решения для табличных данных, но и достичь качества, сопоставимого или превосходящего лучшие классические модели градиентного бустинга. Тестирование проходило на 46 наборах данных, причем среднее место TabM в тестах оказалось между первым и вторым (усредненно 1,7).

Это очень хороший результат, потому что в норме подобные модели делают точные прогнозы только для некоторых наборов данных, под которые их оптимизировали при разработке. Обычная модель редко занимает первые и вторые места сразу в десятках наборах данных. Например, ближайший конкурент TabM в среднем занимал места, ближе к третьему (2,9).

То есть TabM оказалась лидером по универсальности. Это важно, поскольку разрабатывать специализированную модель под каждый новый набор данных долго, дорого и не всегда гарантирует наилучшее качество. В отличие от альтернативных MLP-решений, архитектура TabM универсальна: ее можно применять без глубокой донастройки. Таким образом, специалисты получают новый эффективный и более легкий в использовании инструмент.

На практике TabM уже применили на Kaggle. Это платформа международных соревнований по анализу данных и машинному обучению от Google. Среди задач, для которых применяли TabM, было, например, предсказание выживаемости пациентов после трансплантации костного мозга. Сперва, при обучении, в модель загружали таблицу с данными пациентов с аналогичными диагнозами, в которых было указано, выжил пациент или нет. Затем обученная модель получала данные по нынешним пациентам и делала прогноз по их выживанию.

С 2019 года исследователи Yandex Research опубликовали восемь научных статей по глубокому обучению моделей для работы с табличными данными. В общей сложности статьи получили более 1900 цитирований. В частности, статью о TabM цитировали Университет Мангейма (Германия), Национальный университет Сингапура, Корейский университет, Иллинойсский университет в Урбане-Шампейне (США). В разные годы статьи были приняты на самые влиятельные конференции по ИИ, в том числе NeurIPS, ICLR и ICML.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
12 июня, 10:56
Татьяна Зайцева

Результаты нового исследования показали, что у некоторых пациентов с язвенным колитом или болезнью Крона в крови присутствуют антитела к белку, регулирующему воспаление. В то же время, эти люди являются носителями варианта гена, связанного с тяжелой формой заболевания. Это открытие дает надежду на появление эффективных методов лечения для этой группы пациентов.

14 июня, 10:35
Игорь Байдов

Сам факт того, что после распада Западной Римской империи возникали новые государства, историкам известен давно. Нет сомнений в существовании королевств готов, франков, лангобардов и других постримских политических образований. Авторы нового исследования сосредоточились на более сложном вопросе. Они попытались выяснить, как именно происходило формирование таких обществ на уровне отдельных людей, семей и общин. Впервые благодаря сочетанию генетических и археологических данных исследователи смогли реконструировать развитие одного постримского политического общества, которое располагалось на территории Паннонии.

13 июня, 17:19
Evgenia Vavilova

Физикам долго не удавалось применить фазовый контраст в электронной микроскопии. Оказалось, что нужно было прекратить искать подходящее вещество для фазовой пластины и обратить внимание на лазеры.

14 июня, 10:35
Игорь Байдов

Сам факт того, что после распада Западной Римской империи возникали новые государства, историкам известен давно. Нет сомнений в существовании королевств готов, франков, лангобардов и других постримских политических образований. Авторы нового исследования сосредоточились на более сложном вопросе. Они попытались выяснить, как именно происходило формирование таких обществ на уровне отдельных людей, семей и общин. Впервые благодаря сочетанию генетических и археологических данных исследователи смогли реконструировать развитие одного постримского политического общества, которое располагалось на территории Паннонии.

13 июня, 17:19
Evgenia Vavilova

Физикам долго не удавалось применить фазовый контраст в электронной микроскопии. Оказалось, что нужно было прекратить искать подходящее вещество для фазовой пластины и обратить внимание на лазеры.

12 июня, 12:35
Evgenia Vavilova

Ученые с высокой точностью измерили ключевые параметры нейтринных осцилляций — угол смешивания θ₁₂ и разность квадратов масс нейтрино. Результаты верифицировали несколькими методами.

10 июня, 11:51
Александр Березин

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

17 мая, 10:35
Игорь Байдов

В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.

25 мая, 14:00
Андрей Серегин

В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Ошибка авторизации
По закону на российских сайтах теперь нельзя авторизовываться с помощью иностранных сервисов. Используйте другой способ или восстановите доступ по почте.
Восстановить доступ
Войти по-другому
Вход через почту
Введите привязанную к соцсети почту, чтобы восстановить доступ или получить одноразовую ссылку для входа на сайт.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно