• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
27.06.2024, 11:00
НИУ ВШЭ
160

В НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов

❋ 4.3

Тематические модели — алгоритмы машинного обучения, способные сортировать большие объемы текстов по темам. Исследователи из НИУ ВШЭ в Санкт-Петербурге сравнили пять тематических моделей и определили, какие из них работают лучше. Наименьшее число ошибок показали две модели, одна из которых, GLDAW, — разработка Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге.

Ученые НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов / © Mel Poole, unsplash.com

Статья опубликована в журнале PeerJ Computer Science. Подробнее — в материале IQ.HSE. Человеческому мозгу обычно нетрудно определить тему публикации. К примеру, к этой статье любой редактор с легкостью поставит теги «наука» и «машинное обучение», однако процесс сортировки информации человеком занимает много времени, что становится критичным при большом ее объеме. Современный компьютер может сделать это гораздо быстрее, но для этого нужно решить сложную задачу — выявить смысл документов по их содержимому и классифицировать их.

Этим занимается тематическое моделирование — область алгоритмов машинного обучения, которая направлена на сортировку текстов по темам. Оно используется для облегчения поиска информации, анализа масс-медиа, определения тематики сообществ в социальных сетях, выявления трендов в научных публикациях и решения прочих задач. К примеру, с помощью анализа финансовых новостей можно точнее предсказывать объем торгов на бирже, на который значительно влияют высказывания политиков, события в экономической сфере.

Работа с тематическими моделями выглядит так: алгоритм получает на входе коллекцию текстовых документов. На выходе каждому документу выдается оценка степени принадлежности какой-то теме. Эти оценки основываются на частоте употребления слов и связях между словами и предложениями. Так, встречающиеся в этом тексте слова «ученые», «лаборатория», «анализ», «исследовали», «алгоритмы» позволяют отнести его к теме «наука».

Однако многие слова встречаются в текстах на разные темы, например, слово «работа» часто употребляют в текстах про промышленное производство или рынок труда. Употребление этого слова в сочетании «научная работа» позволяет отнести текст к категории «наука». Такие взаимосвязи, выраженные математически с помощью матриц вероятностей, лежат в основе работы алгоритмов.

Улучшить качество работы тематических моделей можно за счет эмбедингов (векторов чисел фиксированной длины, которые описывают некую сущность по ряду параметров), которые выступают в качестве дополнительной информации, обученной на миллионах текстов.

Ученые Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге исследовали пять тематических моделей: ETM, GLDAW, GSM, WTM-GMM и W-LDA, которые основаны на разных математических принципах.

• ETM — модель авторитетного математика Дэвида Блея, одного из родоначальников направления тематического моделирования в машинном обучении. Его модель базируется на методе латентного размещения Дирихле и вариационном принципе расчета матриц вероятностей в сочетании с эмбедингами.
• Две модели — GSM, WTM-GMM — нейросетевые тематические модели.
• W-LDA реализована на основе процедуры сэмплирования Гиббса с учетом эмбедингов, но, как и в модели Блея, там используется распределение Дирихле.
• GLDAW в процессе определения принадлежности слов к темам опирается на большую коллекцию эмбедингов.

Для эффективной работы любой тематической модели необходимо определить, на сколько категорий, или кластеров, нужно разбить информационный поток. Это дополнительная сложная задача при настройке алгоритмов.

«Человеку обычно заранее не известно, сколько тем присутствует в информационном потоке, поэтому задачу определения числа тем надо переложить на машину. Для этого мы предложили измерять определенную величину информации как противоположную от хаоса. Если хаоса много, то информации мало, и наоборот. Это позволяет оценивать число кластеров, или в данном случае тем, присущих датасету. Эти принципы мы применили в модели GLDAW», — пояснил Сергей Кольцов, первый автор статьи, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге.

Исследователи протестировали модели по показателям стабильности (количеству ошибок), когерентности (определению связности) и энтропии Реньи (определению уровня хаоса). Качество работы алгоритмов испытывали на трех датасетах: материалах русскоязычного новостного ресурса Lenta.ru и двух англоязычных датасетах — 20 Newsgroups и WoS. Такой выбор был связан с тем, что в этих источниках всем текстам изначально были присвоены теги, что позволяло оценить работу алгоритмов по выявлению тем.

Эксперимент показал, что модель ETM — лучшая по когерентности для датасетов Lenta.ru и 20 Newsgroups, в то время как модель GLDAW заняла первое место для датасета WoS. Кроме того, GLDAW наиболее стабильна среди всех протестированных моделей, хорошо определяет оптимальное количество тем и эффективно работает с небольшими текстами, типичными для социальных сетей.

«Мы улучшили работу алгоритма GLDAW за счет использования большой коллекции внешних эмбеддингов, собранной на основе миллионов документов. Это позволило точнее определять семантическую связность между словами и, соответственно, точнее группировать тексты», — рассказал Сергей Кольцов.

Модели GSM, WTM-GMM и W-LDA продемонстрировали более низкие результаты, чем модели ETM и GLDAW, по всем трем показателям. Для исследователей это стало неожиданностью, поскольку считается, что модели на основе нейронных сетей во многом превосходят другие виды моделей в машинном обучении. Причины их неэффективности в тематическом моделировании ученым еще предстоит выяснить. 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
30 декабря, 12:18
Илья Гриднев

Компьютерное моделирование показало, что комета из китайских хроник 5 года до нашей эры могла визуально зависнуть над Иудеей благодаря синхронизации с вращением Земли. Это дает физическое объяснение библейскому описанию остановившейся звезды, хотя отсутствие упоминаний о таком ярком объекте в римских летописях ставит гипотезу под сомнение.

28 декабря, 16:21
Александр Березин

В 16.18 по московскому времени 28 декабря 2025 года с единственного гражданского космодрома на территории России произошел 17-й по счету космический запуск этого года. Перед ним на космодроме побывал корреспондент нашего издания, и вскоре мы выпустим репортаж о том, чем живет самый холодный космодром в мире.

29 декабря, 14:48
Андрей Серегин

Южная Америка в доколониальный период была ареной многочисленных локальных конфликтов за ресурсы. Ученые из Аргентины выяснили подробности сложного и трудоемкого производства стрел в этом регионе.

26 декабря, 15:47
Максим Абдулаев

Биологи опровергли представление о примитивности органов чувств у древнейших бесчелюстных, обнаружив у миксин огромный арсенал рецепторов для поиска добычи. Исследователи доказали, что способность различать сложные запахи и аминокислоты появилась у общего предка позвоночных задолго до возникновения челюстей.

27 декабря, 17:46
Адель Романова

После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.

28 декабря, 16:21
Александр Березин

В 16.18 по московскому времени 28 декабря 2025 года с единственного гражданского космодрома на территории России произошел 17-й по счету космический запуск этого года. Перед ним на космодроме побывал корреспондент нашего издания, и вскоре мы выпустим репортаж о том, чем живет самый холодный космодром в мире.

8 декабря, 13:09
Александр Березин

С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.

17 декабря, 14:19
Игорь Байдов

На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.

23 декабря, 10:51
Игорь Байдов

Среди самых интригующих открытий космического телескопа «‎Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно