• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
23.03.2023, 12:06
Сколтех
865

Ученые визуализировали «форму» многомерных данных

❋ 4.6

Исследователи из Сколтеха и Института искусственного интеллекта AIRI представили метод визуализации, который в отличие от существующих аналогов делает сложные биомедицинские, финансовые и иные данные доступными человеку с сохранением многомерной структуры датасета. Потеря этой так называемой топологии датасета не позволяет делать полезные выводы из данных, будь то раковые гены, поведение потребителей или что-то еще.

«Расплющивание мамонта». Шесть методов снижения размерности данных превращают трехмерный скан скелета мамонта в плоское представление (в двух измерениях). Видно, что использованный коллективом из Сколтеха и AIRI метод (6), RTD-AE, справляется с сохранением исходной «формы» данных лучше, чем другие популярные методы, а именно: (1) t-SNE, (2) UMAP, (3) PaCMAP, (4) Autoencoder и (5) TopoAE / ©Илья Трофимов / Сколтех / Автор: Cloelia Andronicus

Исследование опубликовано в числе проектов, представленных на мероприятии уровня A* — Международной конференции по обучению представлений ICLR 2023. Аналитики компаний и ученые часто имеют дело с базами данных, в которых каждый элемент наделен признаками сразу во многих измерениях. Скажем, банк может использовать широкий круг показателей для описания поведения каждого клиента. Биологи могут сравнивать клетки разных типов с точки зрения того, насколько в них активен каждый из длинного списка генов. Данные по погоде тоже отличаются большим количеством измерений, потому что значения многих параметров фиксируются или предсказываются для множества моментов времени и точек пространства.

При этом людям непривычно мыслить в многомерном пространстве, и если не снизить размерность датасета и не получить его удобное двух- или трехмерное представление, то может быть крайне трудно обнаружить в данных важные закономерности или выдвинуть на основе них продуктивную гипотезу.

«Если данные визуализировать, то они станут интуитивно доступными, осязаемыми, но мы не обязательно увидим их реальную „форму“ — ведь у датасета может быть структура большого масштаба, с кластерами, пустотами, петлями, и хотелось бы, чтобы все это нашло отражение и в представлении пониженной размерности. Тогда физик увидит на визуализации сигналы отдельных частиц, маркетолог — разные группы потребителей, а климатолог — начало и конец интересующего его процесса. Наш метод снижения размерности отличается от аналогов как раз тем, что не жертвует глобальной структурой данных», — поясняет один из авторов исследования, выпускник Сколтеха и сотрудник AIRI Даниил Чернявский.

Существуют разные подходы к снижению размерности данных. Некоторые из них используют автоэнкодеры — нейросети, создающие представления данных в меньшем количестве измерений. «Проблема в том, что большинство методов, в том числе с автоэнкодерами, работают, что называется, локально. То есть учитывают положение каждой точки относительно ближайших соседей, но в целом игнорируют крупномасштабную структуру датасета, — добавляет Чернявский. — Мы же снабдили автоэнкодер дополнительной новой функцией лосса, которая служит тому, чтобы свести к минимуму различие в топологии между исходным датасетом и его представлением сниженной размерности. Когда лосс равен нулю, „форма“ визуализации гарантированно совпадает с исходной».

Ученые с использованием нескольких метрик оценили, насколько хорошо предложенный метод воспроизводит топологию датасета по сравнению с другими популярными методами снижения размерности данных. Для проверки использовались датасеты разного наполнения и метрики, которые отражают сохранение взаимного расположения точек в целом, а не только тех, что находятся в непосредственной близости друг от друга. Метод авторов исследования повторил исходную «форму» данных лучше всего (см. иллюстрацию).

«Топологический анализ обретает все большую популярность как инструмент исследования многомерных данных. Мы рассчитываем, что скоро предложенный нами и другие подобные методы станут признанным стандартом», — считает соавтор исследования профессор Евгений Бурнаев из Центра прикладного искусственного интеллекта Сколтеха и AIRI. 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
5 января, 10:53
Александр Березин

В конце 2025 года СМИ рассказали нам, что «новая» российская орбитальная станция (РОС) будет состоять из модулей, летающих в космосе до 30 лет. «И так сойдет!»: новую российскую орбитальную станцию соберут из остатков МКС», «Отцепим старье от МКС и будем бесконечно чинить» — это не издание «Панорама», а абсолютно реальные заголовки российских СМИ. Печально, но сходную позицию занял и лучший космический журналист и расследователь современного мира Эрик Бергер. Он зашел настолько далеко, чтобы пожалеть, что Дмитрий Рогозин уже не возглавляет «Роскосмос». А вот у тех, кто знает тему, решения по РОС, заявленные официальными лицами в конце прошлого года, вызвали положительную реакцию. Почему?

6 января, 18:07
Адель Романова

Три из четырех крупнейших спутников Юпитера известны «согласованностью» своего обращения вокруг Юпитера: пока Ганимед совершает полный оборот, Европа описывает два круга, а Ио — четыре. Только Каллисто нарушает гармонию и движется «по-своему», и недавно этому предложили новое объяснение: возможно, так сложилось из-за неоднородности того газопылевого облака, в котором эти луны формировались.

6 января, 10:19
ПНИПУ

Более 2,8 млн квадратных километров России — от Чукотки до Таймыра — остаются без центрального энергоснабжения, что ежегодно обходится экономике страны в десятки миллиардов рублей на завоз топлива и ремонт оборудования. Бесперебойное энергоснабжение на удаленных территориях может обеспечиваться за счет внедрения энергоустановок на топливных элементах. Ученые Пермского Политеха оценили жизненный цикл такой установки и исследовали оптимальные режимы работы. Это позволит увеличить срок эксплуатации оборудования, уменьшить углеродный след и снизить себестоимость до восьми рублей за киловатт-час для потребителя, что сопоставимо с ценами центральной России. Энергоустановки на топливных элементах в перспективе могут стать надежным и недорогим источником энергоснабжения удаленных поселков и промышленных объектов, снизить вредное воздействие на хрупкую арктическую природу.

5 января, 10:53
Александр Березин

В конце 2025 года СМИ рассказали нам, что «новая» российская орбитальная станция (РОС) будет состоять из модулей, летающих в космосе до 30 лет. «И так сойдет!»: новую российскую орбитальную станцию соберут из остатков МКС», «Отцепим старье от МКС и будем бесконечно чинить» — это не издание «Панорама», а абсолютно реальные заголовки российских СМИ. Печально, но сходную позицию занял и лучший космический журналист и расследователь современного мира Эрик Бергер. Он зашел настолько далеко, чтобы пожалеть, что Дмитрий Рогозин уже не возглавляет «Роскосмос». А вот у тех, кто знает тему, решения по РОС, заявленные официальными лицами в конце прошлого года, вызвали положительную реакцию. Почему?

2 января, 12:27
Адель Романова

Ученые задались вопросом: почему два расположенных по соседству спутника Юпитера такие разные, ведь на Ио повсеместно извергаются вулканы, а Европа полностью покрыта многокилометровой коркой льда. Есть версия, что Ио когда-то тоже была богата водой, но по итогам недавнего исследования это сочли неправдоподобным.

6 января, 13:57
Александр Березин

Наблюдения за поверхностью Красной планеты показали наличие в ее прошлом очень долгоживущих водоемов. Но жидкая вода должна была замерзать на древнем Марсе, потому что Солнце в ту эпоху было на десятки процентов тусклее, чем сегодня. Новые расчеты позволили ученым предположить, что эта загадка имеет решение — если учесть роль водного льда.

17.12.2025, 14:19
Игорь Байдов

На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.

12.12.2025, 13:48
Игорь Байдов

У побережья Канады морские биологи стали свидетелями необычного случая. Косатки и дельфины объединили свои силы, чтобы вместе охотиться на тихоокеанского лосося. Они погружались в темные глубины, а после удачной охоты делились пищей. Это первое задокументированное охотничье сотрудничество между двумя видами морских млекопитающих.

2 января, 12:27
Адель Романова

Ученые задались вопросом: почему два расположенных по соседству спутника Юпитера такие разные, ведь на Ио повсеместно извергаются вулканы, а Европа полностью покрыта многокилометровой коркой льда. Есть версия, что Ио когда-то тоже была богата водой, но по итогам недавнего исследования это сочли неправдоподобным.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно