• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
23.03.2023, 12:06
Сколтех
876

Ученые визуализировали «форму» многомерных данных

❋ 4.6

Исследователи из Сколтеха и Института искусственного интеллекта AIRI представили метод визуализации, который в отличие от существующих аналогов делает сложные биомедицинские, финансовые и иные данные доступными человеку с сохранением многомерной структуры датасета. Потеря этой так называемой топологии датасета не позволяет делать полезные выводы из данных, будь то раковые гены, поведение потребителей или что-то еще.

«Расплющивание мамонта». Шесть методов снижения размерности данных превращают трехмерный скан скелета мамонта в плоское представление (в двух измерениях). Видно, что использованный коллективом из Сколтеха и AIRI метод (6), RTD-AE, справляется с сохранением исходной «формы» данных лучше, чем другие популярные методы, а именно: (1) t-SNE, (2) UMAP, (3) PaCMAP, (4) Autoencoder и (5) TopoAE / ©Илья Трофимов / Сколтех / Автор: Cloelia Andronicus

Исследование опубликовано в числе проектов, представленных на мероприятии уровня A* — Международной конференции по обучению представлений ICLR 2023. Аналитики компаний и ученые часто имеют дело с базами данных, в которых каждый элемент наделен признаками сразу во многих измерениях. Скажем, банк может использовать широкий круг показателей для описания поведения каждого клиента. Биологи могут сравнивать клетки разных типов с точки зрения того, насколько в них активен каждый из длинного списка генов. Данные по погоде тоже отличаются большим количеством измерений, потому что значения многих параметров фиксируются или предсказываются для множества моментов времени и точек пространства.

При этом людям непривычно мыслить в многомерном пространстве, и если не снизить размерность датасета и не получить его удобное двух- или трехмерное представление, то может быть крайне трудно обнаружить в данных важные закономерности или выдвинуть на основе них продуктивную гипотезу.

«Если данные визуализировать, то они станут интуитивно доступными, осязаемыми, но мы не обязательно увидим их реальную „форму“ — ведь у датасета может быть структура большого масштаба, с кластерами, пустотами, петлями, и хотелось бы, чтобы все это нашло отражение и в представлении пониженной размерности. Тогда физик увидит на визуализации сигналы отдельных частиц, маркетолог — разные группы потребителей, а климатолог — начало и конец интересующего его процесса. Наш метод снижения размерности отличается от аналогов как раз тем, что не жертвует глобальной структурой данных», — поясняет один из авторов исследования, выпускник Сколтеха и сотрудник AIRI Даниил Чернявский.

Существуют разные подходы к снижению размерности данных. Некоторые из них используют автоэнкодеры — нейросети, создающие представления данных в меньшем количестве измерений. «Проблема в том, что большинство методов, в том числе с автоэнкодерами, работают, что называется, локально. То есть учитывают положение каждой точки относительно ближайших соседей, но в целом игнорируют крупномасштабную структуру датасета, — добавляет Чернявский. — Мы же снабдили автоэнкодер дополнительной новой функцией лосса, которая служит тому, чтобы свести к минимуму различие в топологии между исходным датасетом и его представлением сниженной размерности. Когда лосс равен нулю, „форма“ визуализации гарантированно совпадает с исходной».

Ученые с использованием нескольких метрик оценили, насколько хорошо предложенный метод воспроизводит топологию датасета по сравнению с другими популярными методами снижения размерности данных. Для проверки использовались датасеты разного наполнения и метрики, которые отражают сохранение взаимного расположения точек в целом, а не только тех, что находятся в непосредственной близости друг от друга. Метод авторов исследования повторил исходную «форму» данных лучше всего (см. иллюстрацию).

«Топологический анализ обретает все большую популярность как инструмент исследования многомерных данных. Мы рассчитываем, что скоро предложенный нами и другие подобные методы станут признанным стандартом», — считает соавтор исследования профессор Евгений Бурнаев из Центра прикладного искусственного интеллекта Сколтеха и AIRI. 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Сколтех
Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
4 июля, 09:30
Любовь С.

Анализ более 150 тысяч древних звезд Млечного Пути показал, что возраст космоса, судя по всему, близок к 13,8 миллиарда лет. Авторы нового исследования заключили, что сценарии, в которых Вселенную приходится делать заметно «моложе» ради решения хаббловского кризиса, плохо согласуются с наблюдениями. Это важно, поскольку возраст старейших светил — один из немногих независимых способов проверить космологические модели не по данным ранней Вселенной, а по объектам нашей собственной Галактики.

5 июля, 11:05
Марк Чернов

Новая находка доказывает, что эволюция изобрела как минимум два независимых способа бороться с вирусами. Это открытие кардинально меняет представления о развитии иммунитета и расширяет горизонты для поиска новых лекарств.

4 июля, 17:28
Evgenia Vavilova

Мы много знаем о том, как цивилизации до нас строили дома и дороги, но с объектами материальной культуры дела обстоят сложнее. Ремесленные техники часто хранились в строгом секрете и могли быть случайно утрачены при неудачном стечении обстоятельств. Так случилось с ювелирной техникой цзинь чжэ сы.

4 июля, 09:30
Любовь С.

Анализ более 150 тысяч древних звезд Млечного Пути показал, что возраст космоса, судя по всему, близок к 13,8 миллиарда лет. Авторы нового исследования заключили, что сценарии, в которых Вселенную приходится делать заметно «моложе» ради решения хаббловского кризиса, плохо согласуются с наблюдениями. Это важно, поскольку возраст старейших светил — один из немногих независимых способов проверить космологические модели не по данным ранней Вселенной, а по объектам нашей собственной Галактики.

5 июля, 11:05
Марк Чернов

Новая находка доказывает, что эволюция изобрела как минимум два независимых способа бороться с вирусами. Это открытие кардинально меняет представления о развитии иммунитета и расширяет горизонты для поиска новых лекарств.

1 июля, 08:40
Марк Чернов

В вакууме космоса два металлических предмета, прижатые друг к другу, могут спонтанно свариться без какого-либо нагрева. Из-за отсутствия кислорода на поверхностях деталей разрушается защитный слой, в результате чего свободные электроны начинают мгновенно перемещаться между ними и соединяют два элемента в один монолит.

10 июня, 11:51
Александр Березин

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

25 июня, 16:20
Любовь С.

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

25 июня, 15:09
Марк Чернов

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

[miniorange_social_login]

Комментарии

Написать комментарий