Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Ученые визуализировали «форму» многомерных данных
Исследователи из Сколтеха и Института искусственного интеллекта AIRI представили метод визуализации, который в отличие от существующих аналогов делает сложные биомедицинские, финансовые и иные данные доступными человеку с сохранением многомерной структуры датасета. Потеря этой так называемой топологии датасета не позволяет делать полезные выводы из данных, будь то раковые гены, поведение потребителей или что-то еще.

Исследование опубликовано в числе проектов, представленных на мероприятии уровня A* — Международной конференции по обучению представлений ICLR 2023. Аналитики компаний и ученые часто имеют дело с базами данных, в которых каждый элемент наделен признаками сразу во многих измерениях. Скажем, банк может использовать широкий круг показателей для описания поведения каждого клиента. Биологи могут сравнивать клетки разных типов с точки зрения того, насколько в них активен каждый из длинного списка генов. Данные по погоде тоже отличаются большим количеством измерений, потому что значения многих параметров фиксируются или предсказываются для множества моментов времени и точек пространства.
При этом людям непривычно мыслить в многомерном пространстве, и если не снизить размерность датасета и не получить его удобное двух- или трехмерное представление, то может быть крайне трудно обнаружить в данных важные закономерности или выдвинуть на основе них продуктивную гипотезу.
«Если данные визуализировать, то они станут интуитивно доступными, осязаемыми, но мы не обязательно увидим их реальную „форму“ — ведь у датасета может быть структура большого масштаба, с кластерами, пустотами, петлями, и хотелось бы, чтобы все это нашло отражение и в представлении пониженной размерности. Тогда физик увидит на визуализации сигналы отдельных частиц, маркетолог — разные группы потребителей, а климатолог — начало и конец интересующего его процесса. Наш метод снижения размерности отличается от аналогов как раз тем, что не жертвует глобальной структурой данных», — поясняет один из авторов исследования, выпускник Сколтеха и сотрудник AIRI Даниил Чернявский.
Существуют разные подходы к снижению размерности данных. Некоторые из них используют автоэнкодеры — нейросети, создающие представления данных в меньшем количестве измерений. «Проблема в том, что большинство методов, в том числе с автоэнкодерами, работают, что называется, локально. То есть учитывают положение каждой точки относительно ближайших соседей, но в целом игнорируют крупномасштабную структуру датасета, — добавляет Чернявский. — Мы же снабдили автоэнкодер дополнительной новой функцией лосса, которая служит тому, чтобы свести к минимуму различие в топологии между исходным датасетом и его представлением сниженной размерности. Когда лосс равен нулю, „форма“ визуализации гарантированно совпадает с исходной».
Ученые с использованием нескольких метрик оценили, насколько хорошо предложенный метод воспроизводит топологию датасета по сравнению с другими популярными методами снижения размерности данных. Для проверки использовались датасеты разного наполнения и метрики, которые отражают сохранение взаимного расположения точек в целом, а не только тех, что находятся в непосредственной близости друг от друга. Метод авторов исследования повторил исходную «форму» данных лучше всего (см. иллюстрацию).
«Топологический анализ обретает все большую популярность как инструмент исследования многомерных данных. Мы рассчитываем, что скоро предложенный нами и другие подобные методы станут признанным стандартом», — считает соавтор исследования профессор Евгений Бурнаев из Центра прикладного искусственного интеллекта Сколтеха и AIRI.
Исследователи из Великобритании и США выяснили, зачем приматы мужского пола занимаются стимулированием своих половых органов.
Международная группа палеонтологов обнаружила в горных породах возрастом до 1,64 миллиарда лет древнейшие следы стероидов, что подтверждает существование в те времена сложных эукариотических организмов, ставших предками всех современных животных, включая человека.
Крокодилы могут развиваться из неоплодотворенных яйцеклеток, в ходе партеногенеза. Такая способность известна и у птиц, а значит, «девственное размножение» могло происходить и у некоторых динозавров — их общих древних родственников.
Предложенные тепловыделяющие элементы для атомных реакторов позволяют им работать без перегрузки топлива много лет подряд. Это крайне актуально для АЭС малой мощности, на Крайнем Севере или в любых других зонах, удаленных от единых энергосистем, включая тропические острова.
Думают ли умные люди быстрее? Согласно результатам исследования группы ученых из Германии и Испании, не всегда, и в случае решения сложных задач отдельные преимущества оказываются за людьми с менее развитым интеллектом.
Исследователи из Великобритании и США выяснили, зачем приматы мужского пола занимаются стимулированием своих половых органов.
Думают ли умные люди быстрее? Согласно результатам исследования группы ученых из Германии и Испании, не всегда, и в случае решения сложных задач отдельные преимущества оказываются за людьми с менее развитым интеллектом.
В американской прессе обсуждают острый вопрос: почему, несмотря на санкции и потолок цен, в России не просто не было спада, но и, судя по ряду параметров, в 2023-м начался экономический подъем? Чтобы разрешить эту загадку, The Wall Street Journal обратился к спутниковым данным по мониторингу окислов азота. С их помощью журналисты обнаружили, что российские власти, кажется, дают миру неправильную статистику, а на самом деле в России, видимо, происходит глубокий спад. Насколько верна такая оценка? И что на самом деле случится с российской экономикой в этом году?
Большая часть алмазов, образующихся в недрах Земли, выносятся ближе к поверхности небольшими, но мощными извержениями породы. Однако австралийские исследователи обнаружили, что на деле эти извержения подпитываются громадными «тепловыми столбами», начинающимися у самого ядра нашей планеты.

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии