• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
25.10.2024, 11:11
МТУСИ
103

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа

❋ 4.3

Ученые МТУСИ применили современные методы многомерного статистического анализа и NLP для классификации научных публикаций на основе аннотаций. Полученные результаты могут служить основой для разработки автоматизированных систем, способных эффективно обрабатывать большие объемы научной информации, что особенно актуально в условиях стремительного роста числа публикаций и необходимости их систематизации.

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа / © Heribert3, ru.wikipedia.org

Обработка естественного языка, или NLP, — ключевой раздел науки о данных, популярный в промышленности и академических кругах. С развитием NLP растет количество докладов на конференциях и статей в научных журналах, что усложняет поиск нужной информации.

Классификация и выявление тематик в научных публикациях важны для нормализации цитирований и построения журнальных метрик, таких как квартили. В стандартных наукометрических инструментах, таких как Web of Science и Scopus, классификации присваиваются редакторами баз журналам, а публикации в этих источниках приписываются к этим же тематикам. Полноценная классификация на уровне отдельных статей существует только для мультидисциплинарных журналов, а наборы тематик устарели и почти не меняются.

Современные методы выявления тематик основываются на анализе ключевых слов и фраз, извлекаемых из названий, аннотаций и текстов статей, а также на анализе цитирований. Эти методы автоматизированы и способны обрабатывать большие объемы данных, но есть проблема с объективностью результатов, так как ключевые слова выделяет автор. Часто можно встретить набор ключевых слов, не отражающий содержание работы, к примеру: «artificial intelligence, intelligent systems, machine learning» и так далее.

В связи с этим возникла необходимость в применении универсальной методики с использованием современных алгоритмов кластеризации, которая может значительно улучшить понимание и интерпретацию научной литературы.

Владислав Головченко, бакалавр МТУСИ, под руководством доцента кафедры ТВиПМ, кандидата физико-математических наук Ирины Синевой применили современные методы многомерного статистического анализа и NLP для классификации научных публикаций на основе аннотаций.

Для более глубокого изучения текстов была применена комбинация известных подходов, но с аутентичными настройками и использованием более мощных вычислительных ресурсов. В качестве основы для анализа был взят набор публикаций с конференции Twenty-Eighth Conference on Artificial Intelligence, включающий 1406 статей. Из них 398 (28,3 процента) были приняты к публикации, что составило 3282 страницы текста, объединенных общей тематикой — искусственный интеллект. Для классификации этого массива данных были выбраны метод k-means и иерархический агломеративный алгоритм.

«Важный этап работы с датасетом – предобработка данных, включающая очистку (удаление знаков препинания, стоп-слов), токенизацию, векторизацию. Мы удалили все знаки препинания и лишние слова, а затем токенизировали текст — преобразовали его в набор слов, каждый из которых стал отдельным символом. Этот процесс известен как векторизация. Для классификации мы использовали алгоритмы k-means и иерархический на основе метода Уорда. Количество групп, которые мы определили, было основано на анализе метода силуэта (Silhouette).

Датасет включал информацию на английском языке: название работы, авторов, секцию конференции, ключевые слова, тематику и аннотацию (от 1500 знаков). На этапе отбора и предобработки мы обнаружили некоторые недостатки: дисбаланс между группами данных и пропуски знаков препинания. В частности, у двух статей отсутствовал атрибут group, а у шести — topic. Однако мы решили не учитывать эти недочеты в анализе. Частотный подход к анализу текстов, основанный на законе Ципфа-Мандельброта, ускорил процесс фильтрации и повысил эффективность. Для извлечения признаков использовался метод TF-IDF, который выделил значимые слова и определил вес каждого слова», — пояснила Ирина Синева.

Для оценки результатов при различных k использовался метод силуэта (Silhouette). Значение силуэта показывает, насколько объект соответствует своему классу и другим классам. Если многие объекты имеют низкие или отрицательные значения силуэта – в конфигурации слишком много или слишком мало классов. Этот подход позволяет обосновать число классов при обучении без учителя.

«Для нахождения количества классов были протестированы разные классификации, их сравнение проведено на основе силуэтов. Наилучшим результатом оказалось разбиение публикаций на 10 классов, для каждого класса обнаружены особенности контента. При этом было обнаружено, что распределение исходных разделов по генерализованным классам обладает рядом хороших свойств.

Агломеративный иерархический анализ на базе метода Уорда с квадратичной функцией потерь подтвердил, что массив аннотаций конференции AAAI-14 логичнее и эффективнее относить к 10 классам. Для проверки этой гипотезы о количестве классов было проведено сравнение результатов кластеризации при k=10 и k=15. Результаты показали, что при k=10 классы более сбалансированы и не перекрываются, что подтверждает предположение о количестве классов», — рассказал Владислав Головченко.

Методы, такие как k-means и агломеративный иерархический анализ, основанный на методе Уорда, продемонстрировали высокую точность и детализацию в классификации текстов с одинаковой тематикой. Исследование показало, что полученные классы носят контекстно-осмысленный характер, они легко различимы на основе наиболее часто используемых терминов. Были также выделены некоторые самостоятельные классы, связанные с изображениями, компьютерным зрением, теорией игр, экономикой, планированием, новыми алгоритмами.

В ходе исследования установлено, что математические алгоритмы, основанные на законе Ципфа-Мандельброта, а также их взвешенные модификации, обеспечивают более точное выявление терминологических особенностей и сравнение публикаций, особенно в научных статьях, где терминологическая классификация неоднозначна.

Ученые отмечают, что использование аннотаций научных работ вместо полных текстов показало свою оправданность с точки зрения экономии вычислительных ресурсов и времени, обеспечивая при этом адекватную точность классификации. Дальнейшие исследования могут быть направлены на использование полных текстов и более мощных вычислительных ресурсов, что позволит более точно идентифицировать смысловые компоненты и классифицировать научные публикации.

Исследование демонстрирует перспективность применения методов статистической обработки и их модификаций в задаче классификации научных текстов. Полученные результаты могут служить основой для разработки автоматизированных систем, способных эффективно обрабатывать большие объемы научной информации, что особенно актуально в условиях стремительного роста числа публикаций и необходимости их систематизации.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский технический университет связи и информатики (МТУСИ) — ведущее отраслевое техническое высшее учебное заведение Центральной России по подготовке кадров для IT и телеком-индустрии, подведомственное Министерству цифрового развития, связи и массовых коммуникаций РФ. Основан в 1921 году на базе Московского электротехнического института народной связи им. В.Н. Подбельского. Ежегодно МТУСИ выпускает востребованных специалистов в области связи, информационных технологий, квантовых коммуникаций, робототехники, информационной безопасности и цифровой экономики. В состав университета входят 5 факультетов, 34 кафедры, 2 филиала (Волго-Вятский и Северо-Кавказский), Колледж телекоммуникаций, Музей электросвязи, Квантовый центр, Центр робототехники, Лаборатория AR/VR, Центры заочного обучения бакалавров и магистров, Центр индивидуального обучения.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
18 января, 11:45
Игорь Байдов

Повторное изучение окаменелости галлюцигении, впервые описанной в 1970-х годах, помогло палеонтологам больше узнать о рационе этого древнего существа. Ответ на вопрос о питании нашли не в ее останках, а на теле предполагаемой добычи.

19 января, 07:55
Игорь Байдов

Растительная диета давно стала золотым стандартом для тех, кто мечтает о долгой и здоровой жизни. Но китайские ученые внесли серьезные коррективы в этот постулат. Они обнаружили, что большинство местных долгожителей, перешагнувших столетний рубеж, регулярно употребляют в пищу мясо. Особенно заметна эта связь у одной специфической группы пожилых людей, что заставляет по-новому взглянуть на диетические рекомендации для самых старших поколений.

19 января, 16:04
Редакция Naked Science

Наш организм не синхронизирован с современным образом жизни и это создает нам много проблем: мы переедаем, страдаем депрессиями и болезнями сердца. Коренным образом с этим бороться нельзя, по крайней мере, не вернувшись к жизни охотников-собирателей. Но значительной части этих проблем вполне можно помочь… носимым устройством. Причем это не далекая перспектива, а реальность уже наших дней.

18 января, 11:45
Игорь Байдов

Повторное изучение окаменелости галлюцигении, впервые описанной в 1970-х годах, помогло палеонтологам больше узнать о рационе этого древнего существа. Ответ на вопрос о питании нашли не в ее останках, а на теле предполагаемой добычи.

16 января, 15:28
ФизТех

Международная научная группа при участии МФТИ разработала композитный гель-полимерный электролит для аккумуляторов. Этот материал позволит создать безопасные высокомощные батареи, что важно для электромобилей, гаджетов и систем хранения энергии.

13 января, 10:59
НИУ ВШЭ

Исследователи Центра языка и мозга ВШЭ с помощью магнитоэнцефалографии изучили, как мозг взрослых и детей реагирует на слова при чтении. Они показали, что у детей мозг дольше обрабатывает даже часто употребляющиеся в речи слова, а слова, которые встречаются редко, и псевдослова обрабатывает одинаково — медленно и по частям. С возрастом система перестраивается: высокочастотные слова переходят на быстрый маршрут, а вот новые сочетания букв по-прежнему анализируются медленно.

12 января, 15:39
Александр Березин

От рыб произошли все наземные позвоночные, включая нас, но как именно рыбы стали главным населением морей — до последнего времени оставалось неясным. Авторы новой научной работы попытались доказать, что причиной этого было вымирание, возможно, вызванное белыми ночами.

23.12.2025, 10:51
Игорь Байдов

Среди самых интригующих открытий космического телескопа «‎Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.

2 января, 12:27
Адель Романова

Ученые задались вопросом: почему два расположенных по соседству спутника Юпитера такие разные, ведь на Ио повсеместно извергаются вулканы, а Европа полностью покрыта многокилометровой коркой льда. Есть версия, что Ио когда-то тоже была богата водой, но по итогам недавнего исследования это сочли неправдоподобным.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно