23.03.2023, 12:06

Сколтех

Ученые визуализировали «форму» многомерных данных

❋ 4.6

Исследователи из Сколтеха и Института искусственного интеллекта AIRI представили метод визуализации, который в отличие от существующих аналогов делает сложные биомедицинские, финансовые и иные данные доступными человеку с сохранением многомерной структуры датасета. Потеря этой так называемой топологии датасета не позволяет делать полезные выводы из данных, будь то раковые гены, поведение потребителей или что-то еще.

Сколтех

# анализ данных

# датасет

# закономерности

# личные данные

«Расплющивание мамонта». Шесть методов снижения размерности данных превращают трехмерный скан скелета мамонта в плоское представление (в двух измерениях). Видно, что использованный коллективом из Сколтеха и AIRI метод (6), RTD-AE, справляется с сохранением исходной «формы» данных лучше, чем другие популярные методы, а именно: (1) t-SNE, (2) UMAP, (3) PaCMAP, (4) Autoencoder и (5) TopoAE / ©Илья Трофимов / Сколтех / Автор: Cloelia Andronicus

Исследование опубликовано в числе проектов, представленных на мероприятии уровня A* — Международной конференции по обучению представлений ICLR 2023. Аналитики компаний и ученые часто имеют дело с базами данных, в которых каждый элемент наделен признаками сразу во многих измерениях. Скажем, банк может использовать широкий круг показателей для описания поведения каждого клиента. Биологи могут сравнивать клетки разных типов с точки зрения того, насколько в них активен каждый из длинного списка генов. Данные по погоде тоже отличаются большим количеством измерений, потому что значения многих параметров фиксируются или предсказываются для множества моментов времени и точек пространства.

При этом людям непривычно мыслить в многомерном пространстве, и если не снизить размерность датасета и не получить его удобное двух- или трехмерное представление, то может быть крайне трудно обнаружить в данных важные закономерности или выдвинуть на основе них продуктивную гипотезу.

«Если данные визуализировать, то они станут интуитивно доступными, осязаемыми, но мы не обязательно увидим их реальную „форму“ — ведь у датасета может быть структура большого масштаба, с кластерами, пустотами, петлями, и хотелось бы, чтобы все это нашло отражение и в представлении пониженной размерности. Тогда физик увидит на визуализации сигналы отдельных частиц, маркетолог — разные группы потребителей, а климатолог — начало и конец интересующего его процесса. Наш метод снижения размерности отличается от аналогов как раз тем, что не жертвует глобальной структурой данных», — поясняет один из авторов исследования, выпускник Сколтеха и сотрудник AIRI Даниил Чернявский.

Существуют разные подходы к снижению размерности данных. Некоторые из них используют автоэнкодеры — нейросети, создающие представления данных в меньшем количестве измерений. «Проблема в том, что большинство методов, в том числе с автоэнкодерами, работают, что называется, локально. То есть учитывают положение каждой точки относительно ближайших соседей, но в целом игнорируют крупномасштабную структуру датасета, — добавляет Чернявский. — Мы же снабдили автоэнкодер дополнительной новой функцией лосса, которая служит тому, чтобы свести к минимуму различие в топологии между исходным датасетом и его представлением сниженной размерности. Когда лосс равен нулю, „форма“ визуализации гарантированно совпадает с исходной».

Ученые с использованием нескольких метрик оценили, насколько хорошо предложенный метод воспроизводит топологию датасета по сравнению с другими популярными методами снижения размерности данных. Для проверки использовались датасеты разного наполнения и метрики, которые отражают сохранение взаимного расположения точек в целом, а не только тех, что находятся в непосредственной близости друг от друга. Метод авторов исследования повторил исходную «форму» данных лучше всего (см. иллюстрацию).

«Топологический анализ обретает все большую популярность как инструмент исследования многомерных данных. Мы рассчитываем, что скоро предложенный нами и другие подобные методы станут признанным стандартом», — считает соавтор исследования профессор Евгений Бурнаев из Центра прикладного искусственного интеллекта Сколтеха и AIRI.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.

Сколтех

# анализ данных

# датасет

# закономерности

# личные данные

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Экспедиция юных ботаников: тайны листьев и цветов

Библиотека им. Маяковского

Санкт-Петербург

Фестиваль

06 Июл

Бесплатно

Эволюция: от динозавров до античных статуй

Центр «Архэ»

Онлайн

Лекция

06 Июл

Бесплатно

Александр Богданов: революция против болезней

Космонавтика и авиация

Москва

Лекция

06 Июл

1000 ₽

Эволюция болезней: от чумы до COVID 19

Проекты Станислава Дробышевского

Москва

Экскурсия

06 Июл

Бесплатно

Спутники. Земля из космоса

Космонавтика и авиация

Москва

Лекция

06 Июл

Бесплатно

Космические и земные ХИТы (химические источники тока)

Космонавтика и авиация

Москва

Лекция

07 Июл

Бесплатно

Зимбабве — тайны Великого Зимбабве и грохот Виктории

Библиотека иностранной литературы

Москва

Лекция

09 Июл

600 ₽

Эволюция звезд и планетных систем

Московский Планетарий

Москва

Лекция

10 Июл

Бесплатно

Несбывшийся Ленинград: от Обводного до Обводного

Библиотека Планетарий 1

Санкт-Петербург

Популярное

За сутки

За неделю

За месяц

4 июля, 11:27

НовГУ

Не бег, а гантели: назван идеальный вид упражнений для людей с ожирением

Исследование НовГУ показало, что атлетическая гимнастика — один из самых эффективных способов борьбы с ожирением, в отличие, например, от бега. Тренировки с отягощениями не только помогают сжечь жир, но и укреплять мышцы, при этом щадя суставы и сердечно-сосудистую систему. Назван и оптимальный комплекс упражнений для таких людей: три силовые тренировки в неделю по 40–90 минут.

НовГУ

# атлет

# гимнастика

# ожирение

# силовые нагрузки

# упражнения

4 июля, 18:38

Evgenia Vavilova

Как извлечь нефть из камня: в России создали первый цифровой центр исследования недр «Геосфера»

Специалисты центра изучения недр «Геосфера» извлекают из образцов грунта все необходимые данные о действующих и перспективных месторождениях нефти. Рутинные операции с керном делегированы роботам. Умные помощники трудятся 24/7 и позволяют исследователям сосредоточиться на научных и технологических задачах.

Технологии

# автоматизация

# геология

# керн

# моделирование

# нефтедобыча

# нефть

# разработка месторождений

# труднодобываемая нефть

4 июля, 11:56

Александр Березин

США отключат сразу пять межпланетных аппаратов без причины

Сочетание уже подписанных решений конгресса и Белого дома на данный момент ведет к ситуации, когда после 1 октября 2025 года будет прекращено финансирование целого ряда активно работающих космических аппаратов. Речь идет об автоматических межпланетных станциях, разбросанных на девяти миллиардах километров. Все они технически вполне работоспособны и могли бы прослужить еще немало лет.

Космонавтика

# JUNO

# Mars Odyssey

# Maven

# NASA

# OSIRIS-Rex

# космонавтика

# космос

# США

2 июля, 11:17

Юлия Тарасова

Коров покормили отходами конопли и проверили их молоко на психоактивность

Результаты эксперимента в США в будущем могут позволить добиться разрешения на использование отработанной конопли в качестве кормовой добавки в животноводстве.

Биология

# животноводство

# конопля

# корм

# коровы

# молоко

# ТГК

# тетрагидроканнабинол

4 июля, 11:27

НовГУ

Не бег, а гантели: назван идеальный вид упражнений для людей с ожирением

НовГУ

# атлет

# гимнастика

# ожирение

# силовые нагрузки

# упражнения

3 июля, 14:18

Юлия Тарасова

Ученые поставили под сомнение пользу домашних питомцев для психики

Результаты нового исследования разошлись с распространенным представлением о том, что наличие собаки, кошки или другого домашнего компаньона безусловно положительно влияет на благополучие людей. В некоторых случаях возможен негативный эффект.

Психология

# благополучие

# домашние животные

# домашние питомцы

# животные-компаньоны

# коронавирусная пандемия

# одиночество

# стресс

17 июня, 16:49

Адель Романова

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

Астрономия

# космический мусор

# космос

# радиосигналы

# спутники

25 июня, 15:19

ФизТех

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

ФизТех

# «Суперджет»

# самолет

# сверхзвуковой

# суперкомпьютеры

# Шум

2 июля, 11:17

Юлия Тарасова

Коров покормили отходами конопли и проверили их молоко на психоактивность

Биология

# животноводство

# конопля

# корм

# коровы

# молоко

# ТГК

# тетрагидроканнабинол

[miniorange_social_login]

Ученые визуализировали «форму» многомерных данных

По теме

Создан датасет климатических изменений беспрецедентной детализации

Появился Telegram-бот, который выдает взломанные пароли по адресу почты

Компания создаст «слои» дополненной реальности по всей Земле

Популярное

Не бег, а гантели: назван идеальный вид упражнений для людей с ожирением

Как извлечь нефть из камня: в России создали первый цифровой центр исследования недр «Геосфера»

США отключат сразу пять межпланетных аппаратов без причины

Коров покормили отходами конопли и проверили их молоко на психоактивность

Не бег, а гантели: назван идеальный вид упражнений для людей с ожирением

Ученые поставили под сомнение пользу домашних питомцев для психики

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Коров покормили отходами конопли и проверили их молоко на психоактивность

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Роскошь из воздуха: как и где применяют углерод из атмосферы

Напечатанное будущее: как аддитивные технологии меняют подход к разработке

Будущее космических полетов: кто придет на смену «Спейс шаттлу» и «Союзу»

Шарбат Гула – самая знаменитая афганская девочка

Благим матом: история русского сквернословия

Катастрофа группового иммунитета: почему нет надежды, что переболевшие спасут нас от Covid-19

Очень странные болезни

«Багратион»: удар Красной армии, который удивил даже Красную армию

Ученые визуализировали «форму» многомерных данных

По теме

Создан датасет климатических изменений беспрецедентной детализации

Появился Telegram-бот, который выдает взломанные пароли по адресу почты

Компания создаст «слои» дополненной реальности по всей Земле

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Хотите
вести колонку
в нашем
издании?