23.03.2023, 12:06

Сколтех

Ученые визуализировали «форму» многомерных данных

❋ 4.6

Исследователи из Сколтеха и Института искусственного интеллекта AIRI представили метод визуализации, который в отличие от существующих аналогов делает сложные биомедицинские, финансовые и иные данные доступными человеку с сохранением многомерной структуры датасета. Потеря этой так называемой топологии датасета не позволяет делать полезные выводы из данных, будь то раковые гены, поведение потребителей или что-то еще.

Сколтех

# анализ данных

# датасет

# закономерности

# личные данные

«Расплющивание мамонта». Шесть методов снижения размерности данных превращают трехмерный скан скелета мамонта в плоское представление (в двух измерениях). Видно, что использованный коллективом из Сколтеха и AIRI метод (6), RTD-AE, справляется с сохранением исходной «формы» данных лучше, чем другие популярные методы, а именно: (1) t-SNE, (2) UMAP, (3) PaCMAP, (4) Autoencoder и (5) TopoAE / ©Илья Трофимов / Сколтех / Автор: Cloelia Andronicus

Исследование опубликовано в числе проектов, представленных на мероприятии уровня A* — Международной конференции по обучению представлений ICLR 2023. Аналитики компаний и ученые часто имеют дело с базами данных, в которых каждый элемент наделен признаками сразу во многих измерениях. Скажем, банк может использовать широкий круг показателей для описания поведения каждого клиента. Биологи могут сравнивать клетки разных типов с точки зрения того, насколько в них активен каждый из длинного списка генов. Данные по погоде тоже отличаются большим количеством измерений, потому что значения многих параметров фиксируются или предсказываются для множества моментов времени и точек пространства.

При этом людям непривычно мыслить в многомерном пространстве, и если не снизить размерность датасета и не получить его удобное двух- или трехмерное представление, то может быть крайне трудно обнаружить в данных важные закономерности или выдвинуть на основе них продуктивную гипотезу.

«Если данные визуализировать, то они станут интуитивно доступными, осязаемыми, но мы не обязательно увидим их реальную „форму“ — ведь у датасета может быть структура большого масштаба, с кластерами, пустотами, петлями, и хотелось бы, чтобы все это нашло отражение и в представлении пониженной размерности. Тогда физик увидит на визуализации сигналы отдельных частиц, маркетолог — разные группы потребителей, а климатолог — начало и конец интересующего его процесса. Наш метод снижения размерности отличается от аналогов как раз тем, что не жертвует глобальной структурой данных», — поясняет один из авторов исследования, выпускник Сколтеха и сотрудник AIRI Даниил Чернявский.

Существуют разные подходы к снижению размерности данных. Некоторые из них используют автоэнкодеры — нейросети, создающие представления данных в меньшем количестве измерений. «Проблема в том, что большинство методов, в том числе с автоэнкодерами, работают, что называется, локально. То есть учитывают положение каждой точки относительно ближайших соседей, но в целом игнорируют крупномасштабную структуру датасета, — добавляет Чернявский. — Мы же снабдили автоэнкодер дополнительной новой функцией лосса, которая служит тому, чтобы свести к минимуму различие в топологии между исходным датасетом и его представлением сниженной размерности. Когда лосс равен нулю, „форма“ визуализации гарантированно совпадает с исходной».

Ученые с использованием нескольких метрик оценили, насколько хорошо предложенный метод воспроизводит топологию датасета по сравнению с другими популярными методами снижения размерности данных. Для проверки использовались датасеты разного наполнения и метрики, которые отражают сохранение взаимного расположения точек в целом, а не только тех, что находятся в непосредственной близости друг от друга. Метод авторов исследования повторил исходную «форму» данных лучше всего (см. иллюстрацию).

«Топологический анализ обретает все большую популярность как инструмент исследования многомерных данных. Мы рассчитываем, что скоро предложенный нами и другие подобные методы станут признанным стандартом», — считает соавтор исследования профессор Евгений Бурнаев из Центра прикладного искусственного интеллекта Сколтеха и AIRI.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.

Сколтех

# анализ данных

# датасет

# закономерности

# личные данные

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Солнце крупным планом

Санкт-Петербургский Планетарий

Санкт-Петербург

Кинолекторий

16 Июл

Бесплатно

Дальневосточная одиссея Владимира Арсеньева

Российская государственная библиотека

Москва

Лекция

16 Июл

Бесплатно

Квантовая физика в стаканчике кофе

Парк Горького

Москва

Лекция

17 Июл

Бесплатно

Нейробиологические основы депрессии

Парк «Зарядье»

Москва

Лекция

17 Июл

Бесплатно

Изыскатели железнодорожных и морских путей Африки

Библиотека иностранной литературы

Москва

Лекция

17 Июл

Бесплатно

Архетипы в африканских мифах

Библиотека иностранной литературы

Москва

Лекция

17 Июл

Бесплатно

Липидная карта депрессивного мозга

Курилка Гутенберга

Москва

Лекция

18 Июл

Бесплатно

Культура и традиции Замбии

Библиотека иностранной литературы

Москва

Лекция

18 Июл

Бесплатно

Восточные сокровища Лазаревского института в Москве

Российская государственная библиотека

Москва

Популярное

За сутки

За неделю

За месяц

15 июля, 11:00

НИУ ВШЭ

ИИ определил родство точнее, чем тесты ДНК

В Институте искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ предложили новый подход, основанный на современных методах машинного обучения, для определения генетического происхождения человека. Графовые нейросети позволяют с высокой точностью различать даже очень близкие популяции.

НИУ ВШЭ

# ДНК

# мутации

# народы

# родственники

14 июля, 16:17

Денис Яковлев

Сочетание лишнего веса, депрессии и низкой сексуальной активности вчетверо повысило риск смерти

Люди, которые занимаются сексом реже раза в месяц, имеют необычайно высокий риск смерти, если у них есть лишний вес и симптомы депрессии, выяснили ученые.

Медицина

# абдоминальное ожирение

# депрессия

# лишний вес

# ожирение

# риск смерти

14 июля, 11:29

ПНИПУ

Вулканический ад и подледный океан: может ли существовать жизнь на спутниках планет Солнечной системы

Представьте мир, где извергаются серные вулканы высотой в 60 раз больше Эвереста, под 20-километровым льдом скрываются океаны, мощные гейзеры выбрасывают струи водяного пара в космос, а реки из жидкого метана стекают в углеводородные моря. Так выглядят спутники планет Солнечной системы. Ученый Пермского Политеха Евгений Бурмистров рассказал, почему они считаются самыми перспективными местами для поиска жизни и колонизации.

ПНИПУ

# вулканы

# Нептун

# океан

# Солнечная система

# спутники

# уран

12 июля, 22:10

Редакция Naked Science

Научно-фантастические сериалы лета, на которые стоит обратить внимание

Лето 2025 обещает насыщенную линейку научно-фантастических сериалов на ведущих стриминговых платформах. От адаптаций культовых романов до масштабных космических одиссей — мы отобрали проекты, на которые стоит обратить внимание.

Sci-Fi

# «Звездный путь»

# научная фантастика

# сериалы

11 июля, 17:47

Денис Яковлев

Ученые определили оптимальную длительность физической активности, которая продлевает жизнь на треть

Международная команда ученых оценила связь между длительностью физической активности, ее интенсивностью, риском смерти от всех причин и вероятностью развития сердечно-сосудистых и онкологических заболеваний.

Медицина

# ЗОЖ

# онкологические заболевания

# сердечно-сосудистые болезни

# смертность

# спорт

15 июля, 11:00

НИУ ВШЭ

ИИ определил родство точнее, чем тесты ДНК

НИУ ВШЭ

# ДНК

# мутации

# народы

# родственники

17 июня, 16:49

Адель Романова

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

Астрономия

# космический мусор

# космос

# радиосигналы

# спутники

25 июня, 15:19

ФизТех

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

ФизТех

# «Суперджет»

# самолет

# сверхзвуковой

# суперкомпьютеры

# Шум

2 июля, 11:17

Юлия Тарасова

Коров покормили отходами конопли и проверили их молоко на психоактивность

Результаты эксперимента в США в будущем могут позволить добиться разрешения на использование отработанной конопли в качестве кормовой добавки в животноводстве.

Биология

# животноводство

# конопля

# корм

# коровы

# молоко

# ТГК

# тетрагидроканнабинол

[miniorange_social_login]

Ученые визуализировали «форму» многомерных данных

По теме

Создан датасет климатических изменений беспрецедентной детализации

Появился Telegram-бот, который выдает взломанные пароли по адресу почты

Компания создаст «слои» дополненной реальности по всей Земле

Популярное

ИИ определил родство точнее, чем тесты ДНК

Сочетание лишнего веса, депрессии и низкой сексуальной активности вчетверо повысило риск смерти

Вулканический ад и подледный океан: может ли существовать жизнь на спутниках планет Солнечной системы

Научно-фантастические сериалы лета, на которые стоит обратить внимание

Ученые определили оптимальную длительность физической активности, которая продлевает жизнь на треть

ИИ определил родство точнее, чем тесты ДНК

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Коров покормили отходами конопли и проверили их молоко на психоактивность

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Как появились птицы?

Далеко ли до Андромеды? Тест-гид по Галактике и окрестностям от Naked Science

Марс в деталях: 10 интересных фактов о Красной планете

Филадельфийский эксперимент: между реальностью и выдумкой

Есть ли жизнь на Марсе? Будет!

«Новая физика, конечно, должна быть». Как наши физики «ловят» космические частицы с энергией, которую невозможно получить даже на Большом адронном коллайдере

Самые дорогие картины в мире

Квантовый двигатель, или как обмануть законы термодинамики

Ученые визуализировали «форму» многомерных данных

По теме

Создан датасет климатических изменений беспрецедентной детализации

Появился Telegram-бот, который выдает взломанные пароли по адресу почты

Компания создаст «слои» дополненной реальности по всей Земле

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Хотите
вести колонку
в нашем
издании?