• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
31.07.2025, 12:03
Редакция Naked Science
985

Исследователи Яндекса разработали новую нейросетевую архитектуру для работы с табличными данными

❋ 4.7

Лаборатория исследований искусственного интеллекта Yandex Research представила нейросетевую архитектуру для работы с табличными данными — TabM. Разработка позволяет быстро обрабатывать большие массивы данных и строить высокоточные прогнозы при умеренном использовании вычислительных ресурсов. Подобные модели могут использоваться в самых разных областях, от прогнозирования энергопотребления до классификации пациентов по риску заболеваний.

Общая схема TabM / © Yury Gorishniy et al.

Научная работа о модели была представлена на ICLR — одной из крупнейших в мире конференций по искусственному интеллекту. Статья также опубликована в архиве научных статей препринтов Корнеллского университета. Сама архитектура выложена в открытом доступе на GitHub.

Классические модели градиентного бустинга на решающих деревьях (CatBoost, XGBoost, LightGBM) традиционно считались стандартом для работы с табличными данными. В последние годы для этих задач также активно разрабатываются нейросетевые архитектуры — от простых многослойных перцептронов (MLP) до более сложных моделей на основе трансформеров и retrieval-механизмов. При этом вопросы стабильности и эффективности новых методов на широком спектре табличных задач, а также возможности их практического применения, оставались открытыми.

В своей работе исследователи из лаборатории Yandex Research обратили внимание на потенциал улучшения MLP за счет параметро-эффективного ансамблирования. Они предложили архитектуру TabM, созданную на основе многослойного перцептрона с применением модифицированной техники BatchEnsemble. Внутри одной нейросетевой модели формируется несколько виртуальных подмоделей с частично общими параметрами, предсказания которых затем усредняются.

Такой подход позволил TabM не только превзойти базовые MLP и более сложные современные нейросетевые решения для табличных данных, но и достичь качества, сопоставимого или превосходящего лучшие классические модели градиентного бустинга. Тестирование проходило на 46 наборах данных, причем среднее место TabM в тестах оказалось между первым и вторым (усредненно 1,7).

Это очень хороший результат, потому что в норме подобные модели делают точные прогнозы только для некоторых наборов данных, под которые их оптимизировали при разработке. Обычная модель редко занимает первые и вторые места сразу в десятках наборах данных. Например, ближайший конкурент TabM в среднем занимал места, ближе к третьему (2,9).

То есть TabM оказалась лидером по универсальности. Это важно, поскольку разрабатывать специализированную модель под каждый новый набор данных долго, дорого и не всегда гарантирует наилучшее качество. В отличие от альтернативных MLP-решений, архитектура TabM универсальна: ее можно применять без глубокой донастройки. Таким образом, специалисты получают новый эффективный и более легкий в использовании инструмент.

На практике TabM уже применили на Kaggle. Это платформа международных соревнований по анализу данных и машинному обучению от Google. Среди задач, для которых применяли TabM, было, например, предсказание выживаемости пациентов после трансплантации костного мозга. Сперва, при обучении, в модель загружали таблицу с данными пациентов с аналогичными диагнозами, в которых было указано, выжил пациент или нет. Затем обученная модель получала данные по нынешним пациентам и делала прогноз по их выживанию.

С 2019 года исследователи Yandex Research опубликовали восемь научных статей по глубокому обучению моделей для работы с табличными данными. В общей сложности статьи получили более 1900 цитирований. В частности, статью о TabM цитировали Университет Мангейма (Германия), Национальный университет Сингапура, Корейский университет, Иллинойсский университет в Урбане-Шампейне (США). В разные годы статьи были приняты на самые влиятельные конференции по ИИ, в том числе NeurIPS, ICLR и ICML.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
12 января, 15:39
Александр Березин

От рыб произошли все наземные позвоночные, включая нас, но как именно рыбы стали главным населением морей — до последнего времени оставалось неясным. Авторы новой научной работы попытались доказать, что причиной этого было вымирание, возможно, вызванное белыми ночами.

10 января, 11:00
Игорь Байдов

На юге Африки ученые обнаружили коллекцию небольших каменных стрел. С виду — обычные артефакты древнего человека. Но современные технологии позволили выявить их смертельный секрет. Эти наконечники, которым почти 60 тысяч лет, сохранили следы яда. Авторы нового исследования пришли к выводу, что древние охотники стали использовать яды намного раньше, чем считала наука.

12 января, 14:17
Андрей Серегин

Вопрос о том, можно ли считать чрезмерное увлечение физическими упражнениями аддиктивным поведением, остается дискуссионным. Ученые из Италии и Испании выяснили, что сильнее всего к такому компульсивному поведению склонны люди с чертами перфекционизма.

10 января, 11:00
Игорь Байдов

На юге Африки ученые обнаружили коллекцию небольших каменных стрел. С виду — обычные артефакты древнего человека. Но современные технологии позволили выявить их смертельный секрет. Эти наконечники, которым почти 60 тысяч лет, сохранили следы яда. Авторы нового исследования пришли к выводу, что древние охотники стали использовать яды намного раньше, чем считала наука.

9 января, 12:04
Андрей Серегин

Ученые десятилетиями ищут кости мамонтов, которые, по данным генетиков, могли дожить на материке до бронзового века. Очередная потенциальная находка с Аляски, считавшаяся остатками мамонтов, после проверки оказалась костями китов, умерших около двух тысяч лет назад.

12 января, 15:39
Александр Березин

От рыб произошли все наземные позвоночные, включая нас, но как именно рыбы стали главным населением морей — до последнего времени оставалось неясным. Авторы новой научной работы попытались доказать, что причиной этого было вымирание, возможно, вызванное белыми ночами.

17.12.2025, 14:19
Игорь Байдов

На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.

23.12.2025, 10:51
Игорь Байдов

Среди самых интригующих открытий космического телескопа «‎Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.

2 января, 12:27
Адель Романова

Ученые задались вопросом: почему два расположенных по соседству спутника Юпитера такие разные, ведь на Ио повсеместно извергаются вулканы, а Европа полностью покрыта многокилометровой коркой льда. Есть версия, что Ио когда-то тоже была богата водой, но по итогам недавнего исследования это сочли неправдоподобным.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно