27.06.2024, 11:00

НИУ ВШЭ

В НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов

❋ 4.3

Тематические модели — алгоритмы машинного обучения, способные сортировать большие объемы текстов по темам. Исследователи из НИУ ВШЭ в Санкт-Петербурге сравнили пять тематических моделей и определили, какие из них работают лучше. Наименьшее число ошибок показали две модели, одна из которых, GLDAW, — разработка Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге.

НИУ ВШЭ

# машинное обучение

# тексты

# тема

# языковая модель

Ученые НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов / © Mel Poole, unsplash.com

Статья опубликована в журнале PeerJ Computer Science. Подробнее — в материале IQ.HSE. Человеческому мозгу обычно нетрудно определить тему публикации. К примеру, к этой статье любой редактор с легкостью поставит теги «наука» и «машинное обучение», однако процесс сортировки информации человеком занимает много времени, что становится критичным при большом ее объеме. Современный компьютер может сделать это гораздо быстрее, но для этого нужно решить сложную задачу — выявить смысл документов по их содержимому и классифицировать их.

Этим занимается тематическое моделирование — область алгоритмов машинного обучения, которая направлена на сортировку текстов по темам. Оно используется для облегчения поиска информации, анализа масс-медиа, определения тематики сообществ в социальных сетях, выявления трендов в научных публикациях и решения прочих задач. К примеру, с помощью анализа финансовых новостей можно точнее предсказывать объем торгов на бирже, на который значительно влияют высказывания политиков, события в экономической сфере.

Работа с тематическими моделями выглядит так: алгоритм получает на входе коллекцию текстовых документов. На выходе каждому документу выдается оценка степени принадлежности какой-то теме. Эти оценки основываются на частоте употребления слов и связях между словами и предложениями. Так, встречающиеся в этом тексте слова «ученые», «лаборатория», «анализ», «исследовали», «алгоритмы» позволяют отнести его к теме «наука».

Однако многие слова встречаются в текстах на разные темы, например, слово «работа» часто употребляют в текстах про промышленное производство или рынок труда. Употребление этого слова в сочетании «научная работа» позволяет отнести текст к категории «наука». Такие взаимосвязи, выраженные математически с помощью матриц вероятностей, лежат в основе работы алгоритмов.

Улучшить качество работы тематических моделей можно за счет эмбедингов (векторов чисел фиксированной длины, которые описывают некую сущность по ряду параметров), которые выступают в качестве дополнительной информации, обученной на миллионах текстов.

Ученые Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге исследовали пять тематических моделей: ETM, GLDAW, GSM, WTM-GMM и W-LDA, которые основаны на разных математических принципах.

• ETM — модель авторитетного математика Дэвида Блея, одного из родоначальников направления тематического моделирования в машинном обучении. Его модель базируется на методе латентного размещения Дирихле и вариационном принципе расчета матриц вероятностей в сочетании с эмбедингами.
• Две модели — GSM, WTM-GMM — нейросетевые тематические модели.
• W-LDA реализована на основе процедуры сэмплирования Гиббса с учетом эмбедингов, но, как и в модели Блея, там используется распределение Дирихле.
• GLDAW в процессе определения принадлежности слов к темам опирается на большую коллекцию эмбедингов.

Для эффективной работы любой тематической модели необходимо определить, на сколько категорий, или кластеров, нужно разбить информационный поток. Это дополнительная сложная задача при настройке алгоритмов.

«Человеку обычно заранее не известно, сколько тем присутствует в информационном потоке, поэтому задачу определения числа тем надо переложить на машину. Для этого мы предложили измерять определенную величину информации как противоположную от хаоса. Если хаоса много, то информации мало, и наоборот. Это позволяет оценивать число кластеров, или в данном случае тем, присущих датасету. Эти принципы мы применили в модели GLDAW», — пояснил Сергей Кольцов, первый автор статьи, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге.

Исследователи протестировали модели по показателям стабильности (количеству ошибок), когерентности (определению связности) и энтропии Реньи (определению уровня хаоса). Качество работы алгоритмов испытывали на трех датасетах: материалах русскоязычного новостного ресурса Lenta.ru и двух англоязычных датасетах — 20 Newsgroups и WoS. Такой выбор был связан с тем, что в этих источниках всем текстам изначально были присвоены теги, что позволяло оценить работу алгоритмов по выявлению тем.

Эксперимент показал, что модель ETM — лучшая по когерентности для датасетов Lenta.ru и 20 Newsgroups, в то время как модель GLDAW заняла первое место для датасета WoS. Кроме того, GLDAW наиболее стабильна среди всех протестированных моделей, хорошо определяет оптимальное количество тем и эффективно работает с небольшими текстами, типичными для социальных сетей.

«Мы улучшили работу алгоритма GLDAW за счет использования большой коллекции внешних эмбеддингов, собранной на основе миллионов документов. Это позволило точнее определять семантическую связность между словами и, соответственно, точнее группировать тексты», — рассказал Сергей Кольцов.

Модели GSM, WTM-GMM и W-LDA продемонстрировали более низкие результаты, чем модели ETM и GLDAW, по всем трем показателям. Для исследователей это стало неожиданностью, поскольку считается, что модели на основе нейронных сетей во многом превосходят другие виды моделей в машинном обучении. Причины их неэффективности в тематическом моделировании ученым еще предстоит выяснить.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».

НИУ ВШЭ

# машинное обучение

# тексты

# тема

# языковая модель

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Из истории здания Зоологического музея на Стрелке Васильевского острова

Зоологический музей РАН

Санкт-Петербург

Экскурсия

20 Фев

Бесплатно

Лампы, кнопки, два пульта

Космонавтика и авиация

Москва

Лекция

20 Фев

Бесплатно

Растения, способные удивлять: то, чего вы не знали о ботанике

СПбГУ

Санкт-Петербург

Лекция

20 Фев

Бесплатно

Сад за полярным кругом: фантастика или реальность

Русское географическое общество

Москва

Лекция

20 Фев

1000 ₽

За летом зима, за зимою лето…

Центр «Архэ»

Москва

Музей криптографии

Москва

Лекция

21 Фев

Бесплатно

Проблемы межзвездного полета: научные барьеры на пути к звездам

Экспериментаниум

Москва

Лекция

21 Фев

Бесплатно

Юбилей станции «Мир»: взгляд изнутри

Космонавтика и авиация

Москва

Космонавтика и авиация

Москва

Популярное

За сутки

За неделю

За месяц

17 февраля, 10:00

ФизТех

Астрофизики раскрыли механизм образования воды на астероидах

Ученые из Института космических исследований РАН и МФТИ раскрыли химический механизм, объясняющий появление молекул воды на поверхностях астероидов.

ФизТех

# астероид

# астрофизика

# вода

# реголит

# солнечный ветер

17 февраля, 15:30

МГППУ

Синдром визуального снега объяснили гиперактивностью зрительной коры

Пластичность мозга — его способность перестраиваться под влиянием приходящей информации. Это свойство необходимо для обучения и адаптации. Пластичность особенно высока в детском и юношеском возрасте, она помогает быстро выучить иностранный язык и освоить сложные моторные навыки (например, фигурное катание). Ресурс пластичности есть и у пожилых людей — благодаря альтернативным нейронным сетям они восстанавливаются после травмы или инсульта. Как выясняется, высокая пластичность это не всегда хорошо. Нарушение тонкого баланса между пластичностью и стабильностью может вести к неприятным последствиям, таким как хроническая боль, тиннитус (звон в ушах) и фобии.

МГППУ

# зрение

# зрительная кора

# мозг

# нарушение зрения

# нейропластичность

17 февраля, 09:30

СПбГУ

В СПбГУ ускорили поиск неоптерина в крови

Исследователи Санкт-Петербургского государственного университета разработали эффективный способ обнаружения в крови важнейшего биомаркера иммунитета — неоптерина — с помощью нанотехнологий и лазера.

СПбГУ

# биомаркеры

# иммунитет

# инфекции

# кровь

# наночастицы

# технологии

12 февраля, 07:52

Адель Романова

В архивах NASA нашли записи о падении на Землю двух неизвестных межзвездных объектов

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

Астрономия

# космос

# межзвездные объекты

# метеороиды

# падение метеорита

12 февраля, 11:41

Александр Березин

Посадки деревьев для борьбы с углекислым газом усилили выбросы углекислого газа

На наземные растения, в основном деревья, приходится 80 процентов всей биомассы Земли, 450 миллиардов тонн сухого углерода и более двух триллионов тонн «живого веса». Поэтому идея сажать новые леса для связывания СО2 из атмосферы долго казалась логичной. Новые данные показали, что реальность заметно сложнее.

Биология

# антропогенные выбросы углекислого газа

# глобальное потепление

# деревья

12 февраля, 08:19

Полина Меньшова

Психологи выяснили, сколько раз за жизнь люди способны сильно влюбиться

«Любить лишь можно только раз», — писал поэт Сергей Есенин, а герои культовых сериалов приходили к выводу, что «настоящая» влюбленность случается в жизни максимум дважды. Однако ни один из этих тезисов не подкреплен научными данными. Американские исследователи подошли к вопросу иначе: опросили более 10 тысяч человек и вывели среднее число сильных влюбленностей, возможных в течение жизни.

Психология

# влюбленность

# любовь

# романтические отношения

# страсть

12 февраля, 07:52

Адель Романова

В архивах NASA нашли записи о падении на Землю двух неизвестных межзвездных объектов

Астрономия

# космос

# межзвездные объекты

# метеороиды

# падение метеорита

28 января, 10:50

Игорь Байдов

В Мексике нашли небольшого динозавра, решавшего споры лбом

Международная команда палеонтологов описала новый вид динозавра размером с крупную современную птицу. Он носил на голове плотный костяной нарост, который эти животные, возможно, использовали для внутривидовых разборок. Находка показывает, что даже мелкие хищники мелового периода могли решать конфликты не только когтями и зубами, но и ударами головой.

Палеонтология

# динозавры

# древние виды

# древние животные

# меловой период

26 января, 14:26

Александр Березин

Анализ лунного грунта опроверг космическое происхождение земной воды

Образцы грунта, взятые астронавтами полвека назад, вложили еще один важный кирпич в здание научной картины мира: гипотеза о том, что Земля исходно была сухой, не стыкуется с фактами. Похоже, идею о невозможности сохранения большого количества воды на «теплых» планетах придется пересмотреть.

Астрономия

# внеземная вода

# Земля

# Луна

[miniorange_social_login]

В НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов

По теме

Предложен новый метод анализа юридических текстов

Роботы будут преподавать в школах

Нейросеть научили ранней диагностике меланомы

Популярное

Астрофизики раскрыли механизм образования воды на астероидах

Синдром визуального снега объяснили гиперактивностью зрительной коры

В СПбГУ ускорили поиск неоптерина в крови

В архивах NASA нашли записи о падении на Землю двух неизвестных межзвездных объектов

Посадки деревьев для борьбы с углекислым газом усилили выбросы углекислого газа

Психологи выяснили, сколько раз за жизнь люди способны сильно влюбиться

В архивах NASA нашли записи о падении на Землю двух неизвестных межзвездных объектов

В Мексике нашли небольшого динозавра, решавшего споры лбом

Анализ лунного грунта опроверг космическое происхождение земной воды

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Авиашлемы. Виртуальная реальность в настоящем бою

Оружие из фантастических фильмов, которое может появиться в будущем

Как мы умрем: рейтинг причин человеческой смертности

Как далеко сможет зайти ИИ? Интервью с Александром Пановым

Космический субботник: проекты по защите Земли от орбитального мусора

Обезьянья оспа: что известно о перспективах новой пандемии

Россия vs Турция: чья боевая авиация сильней?

У-2 вернулся: как будет защищаться Россия, когда Украина скопирует иранские «Герани»

В НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов

По теме

Предложен новый метод анализа юридических текстов

Роботы будут преподавать в школах

Нейросеть научили ранней диагностике меланомы

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?