25.10.2024, 11:11

МТУСИ

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа

❋ 4.3

Ученые МТУСИ применили современные методы многомерного статистического анализа и NLP для классификации научных публикаций на основе аннотаций. Полученные результаты могут служить основой для разработки автоматизированных систем, способных эффективно обрабатывать большие объемы научной информации, что особенно актуально в условиях стремительного роста числа публикаций и необходимости их систематизации.

МТУСИ

# научная литература

# научные статьи

# статистический анализ

# тексты

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа / © Heribert3, ru.wikipedia.org

Обработка естественного языка, или NLP, — ключевой раздел науки о данных, популярный в промышленности и академических кругах. С развитием NLP растет количество докладов на конференциях и статей в научных журналах, что усложняет поиск нужной информации.

Классификация и выявление тематик в научных публикациях важны для нормализации цитирований и построения журнальных метрик, таких как квартили. В стандартных наукометрических инструментах, таких как Web of Science и Scopus, классификации присваиваются редакторами баз журналам, а публикации в этих источниках приписываются к этим же тематикам. Полноценная классификация на уровне отдельных статей существует только для мультидисциплинарных журналов, а наборы тематик устарели и почти не меняются.

Современные методы выявления тематик основываются на анализе ключевых слов и фраз, извлекаемых из названий, аннотаций и текстов статей, а также на анализе цитирований. Эти методы автоматизированы и способны обрабатывать большие объемы данных, но есть проблема с объективностью результатов, так как ключевые слова выделяет автор. Часто можно встретить набор ключевых слов, не отражающий содержание работы, к примеру: «artificial intelligence, intelligent systems, machine learning» и так далее.

В связи с этим возникла необходимость в применении универсальной методики с использованием современных алгоритмов кластеризации, которая может значительно улучшить понимание и интерпретацию научной литературы.

Владислав Головченко, бакалавр МТУСИ, под руководством доцента кафедры ТВиПМ, кандидата физико-математических наук Ирины Синевой применили современные методы многомерного статистического анализа и NLP для классификации научных публикаций на основе аннотаций.

Для более глубокого изучения текстов была применена комбинация известных подходов, но с аутентичными настройками и использованием более мощных вычислительных ресурсов. В качестве основы для анализа был взят набор публикаций с конференции Twenty-Eighth Conference on Artificial Intelligence, включающий 1406 статей. Из них 398 (28,3 процента) были приняты к публикации, что составило 3282 страницы текста, объединенных общей тематикой — искусственный интеллект. Для классификации этого массива данных были выбраны метод k-means и иерархический агломеративный алгоритм.

«Важный этап работы с датасетом – предобработка данных, включающая очистку (удаление знаков препинания, стоп-слов), токенизацию, векторизацию. Мы удалили все знаки препинания и лишние слова, а затем токенизировали текст — преобразовали его в набор слов, каждый из которых стал отдельным символом. Этот процесс известен как векторизация. Для классификации мы использовали алгоритмы k-means и иерархический на основе метода Уорда. Количество групп, которые мы определили, было основано на анализе метода силуэта (Silhouette).

Датасет включал информацию на английском языке: название работы, авторов, секцию конференции, ключевые слова, тематику и аннотацию (от 1500 знаков). На этапе отбора и предобработки мы обнаружили некоторые недостатки: дисбаланс между группами данных и пропуски знаков препинания. В частности, у двух статей отсутствовал атрибут group, а у шести — topic. Однако мы решили не учитывать эти недочеты в анализе. Частотный подход к анализу текстов, основанный на законе Ципфа-Мандельброта, ускорил процесс фильтрации и повысил эффективность. Для извлечения признаков использовался метод TF-IDF, который выделил значимые слова и определил вес каждого слова», — пояснила Ирина Синева.

Для оценки результатов при различных k использовался метод силуэта (Silhouette). Значение силуэта показывает, насколько объект соответствует своему классу и другим классам. Если многие объекты имеют низкие или отрицательные значения силуэта – в конфигурации слишком много или слишком мало классов. Этот подход позволяет обосновать число классов при обучении без учителя.

«Для нахождения количества классов были протестированы разные классификации, их сравнение проведено на основе силуэтов. Наилучшим результатом оказалось разбиение публикаций на 10 классов, для каждого класса обнаружены особенности контента. При этом было обнаружено, что распределение исходных разделов по генерализованным классам обладает рядом хороших свойств.

Агломеративный иерархический анализ на базе метода Уорда с квадратичной функцией потерь подтвердил, что массив аннотаций конференции AAAI-14 логичнее и эффективнее относить к 10 классам. Для проверки этой гипотезы о количестве классов было проведено сравнение результатов кластеризации при k=10 и k=15. Результаты показали, что при k=10 классы более сбалансированы и не перекрываются, что подтверждает предположение о количестве классов», — рассказал Владислав Головченко.

Методы, такие как k-means и агломеративный иерархический анализ, основанный на методе Уорда, продемонстрировали высокую точность и детализацию в классификации текстов с одинаковой тематикой. Исследование показало, что полученные классы носят контекстно-осмысленный характер, они легко различимы на основе наиболее часто используемых терминов. Были также выделены некоторые самостоятельные классы, связанные с изображениями, компьютерным зрением, теорией игр, экономикой, планированием, новыми алгоритмами.

В ходе исследования установлено, что математические алгоритмы, основанные на законе Ципфа-Мандельброта, а также их взвешенные модификации, обеспечивают более точное выявление терминологических особенностей и сравнение публикаций, особенно в научных статьях, где терминологическая классификация неоднозначна.

Ученые отмечают, что использование аннотаций научных работ вместо полных текстов показало свою оправданность с точки зрения экономии вычислительных ресурсов и времени, обеспечивая при этом адекватную точность классификации. Дальнейшие исследования могут быть направлены на использование полных текстов и более мощных вычислительных ресурсов, что позволит более точно идентифицировать смысловые компоненты и классифицировать научные публикации.

Исследование демонстрирует перспективность применения методов статистической обработки и их модификаций в задаче классификации научных текстов. Полученные результаты могут служить основой для разработки автоматизированных систем, способных эффективно обрабатывать большие объемы научной информации, что особенно актуально в условиях стремительного роста числа публикаций и необходимости их систематизации.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский технический университет связи и информатики (МТУСИ) — ведущее отраслевое техническое высшее учебное заведение Центральной России по подготовке кадров для IT и телеком-индустрии, подведомственное Министерству цифрового развития, связи и массовых коммуникаций РФ. Основан в 1921 году на базе Московского электротехнического института народной связи им. В.Н. Подбельского. Ежегодно МТУСИ выпускает востребованных специалистов в области связи, информационных технологий, квантовых коммуникаций, робототехники, информационной безопасности и цифровой экономики. В состав университета входят 5 факультетов, 34 кафедры, 2 филиала (Волго-Вятский и Северо-Кавказский), Колледж телекоммуникаций, Музей электросвязи, Квантовый центр, Центр робототехники, Лаборатория AR/VR, Центры заочного обучения бакалавров и магистров, Центр индивидуального обучения.

МТУСИ

# научная литература

# научные статьи

# статистический анализ

# тексты

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Превентивная медицина, биохакинг и спорт

Курилка Гутенберга

Москва

Москва

Библиотека Екатерингофская

Санкт-Петербург

Лекция

30 Июл

Бесплатно

Избыточный вес: так ли он плох, виноват ли пациент и спасут ли препараты?

Парк «Зарядье»

Москва

Лекция

30 Июл

Бесплатно

Отечественная психология развития: как мы обучаемся

Библиотека им. Н. А. Некрасова

Москва

Лекция

31 Июл

Бесплатно

Кто такие дрожжи и почему вокруг них столько мифов?

Библиотека Планетарий 1

Санкт-Петербург

Космонавтика и авиация

Москва

Космонавтика и авиация

Москва

Лекция

01 Авг

Бесплатно

Как устроены здания для жизни

Политехнический музей

Москва

Популярное

За сутки

За неделю

За месяц

28 июля, 06:37

Мария Азарова

Собаки оказались не такими бескорыстными, как считалось

Новый эксперимент показал, что собаки далеко не всегда готовы помогать людям бескорыстно. Ожидание вкусной награды влияет на поведение этих животных гораздо сильнее.

Биология

# Альтруизм

# домашние животные

# млекопитающее

# собаки

28 июля, 12:39

Игорь Байдов

Загадочные гоминины оставили большие следы на берегу древнего озера в Африке

Примерно 1,4 миллиона лет назад группа древних приматов прошла по илистой отмели вдоль берега древнего озера Лореньянг на территории нынешней Кении и оставила после себя цепочку отпечатков ног. Позже отпечатки покрыли осадки, что позволило им сохраниться до наших дней. Авторы нового исследования изучили эту цепочку и сделали вывод, что по строению стопы и особенностям походки следы больше напоминают следы Paranthropus boisei, тогда как размеры тела гомининов, оставивших их, ближе к оценкам для Homo erectus. Именно это противоречие пока не позволяет уверенно определить, какому виду они принадлежат.

Антропология

# Homo erectus

# гоминины

# древние виды

# древние люди

# люди

# парантропы

# приматы

# следы

29 июля, 11:04

Сколтех

Физики из России решили 60-летнюю проблему создания перовскитного лазерного диода

Ученые из Сколтеха (группа ВЭБ.РФ) и их коллеги из Университета ИТМО и НИУ ВШЭ впервые продемонстрировали прямую электрическую накачку поляритонного лазера на основе галогенидного перовскитного микрокристалла, полученного из раствора. Результаты исследования представляют собой решение давней проблемы физики полупроводников и оптоэлектроники, которая десятилетиями оставалась препятствием на пути к решению технологической задачи: создать недорогие неэпитаксиальные лазерные диоды, работающие под непрерывным электрическим током. Такие устройства найдут применение в оптических сенсорах и спектроскопии, высокоскоростных вычислениях и энергоэффективных нейроморфных компьютерах.

Сколтех

# лазер

# Перовскит

# физика

# электроника

28 июля, 13:27

Александр Березин

Эксперт назвал ключевую технологию Starship тупиковой

Бывшие сотрудники NASA констатировали, что последнее видео испытаний крупнейшего космического корабля в истории снова показало проблемы и ограничения его теплового щита. С их точки зрения, любая из существующих технологий такого типа слишком сложна для реализации замысла Илона Маска о быстрой и безремонтной многоразовости Starship.

Космонавтика

# SpaceX

# StarShip

# космонавтика

28 июля, 13:10

Марк Чернов

Кофе защитил печень от ожирения, цирроза и рака: крупное исследование раскрыло механизмы его пользы

Американские ученые установили, что привычка регулярно пить кофе значительно снижает риск развития цирроза, рака печени и печеночных патологий. Новые данные помогают объяснить биохимические механизмы, стоящие за защитным эффектом этого напитка.

Медицина

# воспаление

# здоровье

# кофе

# печень

# питание

# рак печени

# цирроз

24 июля, 11:13

Игорь Байдов

Звуки помогли повысить урожайность

Правильно подобранные звуковые последовательности способны не только стимулировать рост растений, но и влиять на их урожайность. К такому выводу пришли авторы нового исследования. Они разработали технологию, которая позволяет воздействовать на процессы развития растений через акустические сигналы без использования генной инженерии или химикатов. В экспериментах добились повышения урожайности мяты, сои, болгарского перца и конопли.

Биология

# ботаника

# звуки

# каннабис

# конопля

# растения

# урожайность

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Видеосервисы стали неотъемлемой частью жизни россиян. В 2026 году охваты большинства платформ продолжают расти, в том числе YouTube.

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

19 июля, 20:09

Александр Березин

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Очереди на заправках стали привычным явлением в России, а на фоне информационного вакуума от властей о конкретных показателях производства бензина в июне население вынуждено ориентироваться на слухи. Все это выглядит довольно странно, но есть нюанс: скорее всего, кризис уже начинает выдыхаться. Как именно мы это выяснили?

С точки зрения науки

# бензин

# нпз

# Россия

# экономика

Выбор редакции

1 июля, 11:54

Марк Чернов

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Древнеримские инженеры проложили колоссальную сеть дорог через Европу, Северную Африку и Ближний Восток, многие участки которой до сих пор поражают безупречной прямолинейностью. Секрет строительства заключался в использовании трех особых геодезических инструментов, с помощью которых разбивали местность на ровные отрезки и размечали трассы.

История

# Древний Рим

# инженерия

# инструменты

# история

# Римская империя

[miniorange_social_login]

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа

По теме

Предложен новый метод анализа юридических текстов

Созданы нейросети для обнаружения сгенерированных вставок в текстах

Ученые подтвердили, что интенсивное курение ускоряет старение лица

Популярное

Собаки оказались не такими бескорыстными, как считалось

Загадочные гоминины оставили большие следы на берегу древнего озера в Африке

Физики из России решили 60-летнюю проблему создания перовскитного лазерного диода

Эксперт назвал ключевую технологию Starship тупиковой

Кофе защитил печень от ожирения, цирроза и рака: крупное исследование раскрыло механизмы его пользы

Звуки помогли повысить урожайность

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Историки объяснили, как римляне строили идеально прямые дороги на тысячи километров

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

10 самых необычных грибов

XFEL: гибрид микроскопа с ускорителем

Наука сна: Пять открытий, сделанных спящими учеными

Карантин.нет: почему россияне не соблюдают самоизоляцию

На Марсе впервые обнаружили активный очаг вулкана

Американцы на Луне: стоит ли сомневаться дальше?

Третий не лишний. Зачем ребенку дополнительный родитель?

Солнечная электростанция в космосе: путь для решения земных проблем или наоборот?

В МТУСИ классифицировали научные статьи с помощью многомерного статистического анализа

По теме

Предложен новый метод анализа юридических текстов

Созданы нейросети для обнаружения сгенерированных вставок в текстах

Ученые подтвердили, что интенсивное курение ускоряет старение лица

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 67

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?