• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
6 часов назад
МТУСИ
108

Предложен новый метод анализа юридических текстов

4.3

Сфера права сталкивается с необходимостью мгновенного и точного анализа множества правовых документов, судебных решений и законодательных актов. Традиционные методы анализа часто оказывались недостаточно эффективными, что в свою очередь подчеркивает потребность в современных технологических решениях. В частности, метод TF-IDF, используемый в качестве основы для построения дерева решений, представляет собой эффективный инструмент для выделения ключевых слов и понятий. Его и предложили применять ученые МТУСИ для анализа юридических текстов.

В МТУСИ предложили новый метод анализа юридических текстов / © Jonathunder, ru.wikipedia.org

Дерево решений — метод машинного обучения, древовидная структура, где каждый узел представляет собой вопрос или тест на определенное свойство данных, каждая ветвь соответствует возможному ответу на этот вопрос, а каждый лист дерева — прогноз или решение. Построение дерева решений на основе алгоритма TF-IDF позволяет учитывать важность слов, выделяя ключевые термины и фильтруя часто встречающиеся слова. Этот подход обеспечивает легкость работы с текстовыми данными, интерпретируемость результатов и минимальные требования к предварительной обработке, что делает его удобным для задач категоризации и тематического анализа.

В МТУСИ над разработкой новой методики применения дерева решений, основанного на методе TF-IDF для анализа естественного языка при решении задач в области гражданского права, работали: Скородумова Елена Александровна, доцент кафедры ТВиПМ, кандидат физико-математических наук, доцент, и Захарьева Диана, студентка МТУСИ.

В ходе исследования они собрали массив данных с веб-ресурса https://sudact.ru/, который затем подвергался детальному анализу с акцентом на выявление релевантных глав и статей гражданского кодекса.

«В рамках сбора информации извлечено 12 дел в области гражданского права, которые впоследствии подверглись детальному изучению и анализу. Извлеченные обвинительные решения по делам были обработаны с целью выделения содержащихся в них мотивировочной части иска и дальнейшем внесении в разработанную программу для проведения дальнейшего исследования. В конечном итоге программа сформировала перечень глав и статей гражданского и семейного кодексов, и для каждого из них было приведено численное значение, отражающее степень соответствия между мотивировочной частью иска и содержанием определенной главы и статьи. Процедура сопоставления и оценки подобия проводилась для каждой главы и статьи отдельно», — отмечает Елена Александровна.

Исследователи отмечают, что перед анализом соответствия статей важно выявить соответствующие главы, основываясь на их расположении в списке, отсортированном по убыванию метрики релевантности.

«Дерево решений формировалось в несколько этапов. Сначала проводился расчет значений TF-IDF для кодексов, затем для разделов этих кодексов. Последующие этапы включают расчет TF-IDF для подразделов и, наконец, для глав. Полученные значения TF-IDF на каждом уровне иерархии перемножались между собой. Затем полученный список проходил процесс упорядочивания, при котором элементы расположились в порядке убывания значений. Это позволило выделить те главы, которые наиболее точно соответствуют иску», — рассказала об исследовании Захарьева Диана.

При построении дерева решений на основе алгоритма TF-IDF для поиска релевантных глав выявлены факторы, влияющие на качество модели: низкая эффективность при работе с большими объемами текста и отсутствие учета контекста. При анализе схожести статей и иска было обнаружено, что релевантные статьи расположены в первой половине отсортированного по убыванию метрики списка.

Установлено, что использование дерева решений, основанного на алгоритме TF-IDF, позволяет эффективно отфильтровать наиболее несоответствующие статьи и главы. Иными словами, этот метод способен провести отсев примерно половины глав, а в пределах каждой релевантной главы также отбросить около половины статей, исходя из степени их соответствия.

Исследователи уверены, что у нового метода есть потенциал для дальнейшего развития. Они планируют проведение дополнительных исследований и адаптацию методологии для расширения применения в различных контекстах, что откроет новые горизонты для эффективного анализа текста в области права.

Материал подготовлен на основе статьи «Применение дерева решений, основанного на методе TF-IDF, для анализа естественного языка при решении задач в области гражданского права», размещенной в сборнике трудов «Технологии информационного общества» (XVIII Международная отраслевая научно-техническая конференция).

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский технический университет связи и информатики (МТУСИ) — ведущее отраслевое техническое высшее учебное заведение Центральной России по подготовке кадров для IT и телеком-индустрии, подведомственное Министерству цифрового развития, связи и массовых коммуникаций РФ. Основан в 1921 году на базе Московского электротехнического института народной связи им. В.Н. Подбельского. Ежегодно МТУСИ выпускает востребованных специалистов в области связи, информационных технологий, квантовых коммуникаций, робототехники, информационной безопасности и цифровой экономики. В состав университета входят 5 факультетов, 34 кафедры, 2 филиала (Волго-Вятский и Северо-Кавказский), Колледж телекоммуникаций, Музей электросвязи, Квантовый центр, Центр робототехники, Лаборатория AR/VR, Центры заочного обучения бакалавров и магистров, Центр индивидуального обучения.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
Позавчера, 15:52
Игорь Байдов

Команда американских астрономов изучила околоземный астероид 2024 PT5, который почти на два месяца стал временным спутником нашей планеты, и установила его природу. Похоже, он представляет собой отколовшуюся лунную породу. По мнению авторов новой научной работы, в космосе дрейфует скрытая популяция таких объектов, все они ожидают своего открытия.

Вчера, 11:00
НИУ ВШЭ

Потребители контента о маньяках, смотрят и читают его, чтобы испытать сильные эмоции, которых не хватает в обычной жизни, и разобраться в причинах, побуждающих людей к совершению преступлений. При этом, росту уровня агрессии такой контент не способствует. К таким выводам пришли социологи из НИУ ВШЭ.

Вчера, 18:19
Evgenia

Группа ученых утверждает, что количество фундаментальных констант зависит от типа пространства-времени, в котором формулируются использующие их теории. В релятивистском пространстве-времени весь набор констант можно сократить до определяющей время — секунды.

16 декабря
Полина Меньшова

Человек и животные осваивают навыки, обучаясь на собственном опыте. Однако ученым из США удалось без явного обучения и физических манипуляций внести в мозг шаблон активности. Это позволило людям усвоить информацию и заставило по-другому воспринимать визуальные образы.

Позавчера, 15:52
Игорь Байдов

Команда американских астрономов изучила околоземный астероид 2024 PT5, который почти на два месяца стал временным спутником нашей планеты, и установила его природу. Похоже, он представляет собой отколовшуюся лунную породу. По мнению авторов новой научной работы, в космосе дрейфует скрытая популяция таких объектов, все они ожидают своего открытия.

17 декабря
Юлия Трепалина

Люди, чья профессиональная деятельность часто требует обработки пространственной информации и решения навигационных задач, могут быть в меньшей степени подвержены смерти из-за болезни Альцгеймера. Это показало свежее исследование американских медиков.

28 ноября
Елизавета Александрова

Обсерватории постоянно улавливают «мигающие» радиосигналы из глубин Вселенной. Чаще всего их источниками оказываются нейтронные звезды, которые за это и назвали пульсарами. Но к недавно обнаруженному источнику GLEAM-X J0704-37 они, по мнению астрономов, отношения не имеют.

25 ноября
Полина Меньшова

Многие одинокие люди считают, что окружающие не разделяют их взглядов. Психологи из США решили проверить, так ли это на самом деле, и обнаружили общую особенность у людей с недостаточным количеством социальных связей.

3 декабря
Елизавета Александрова

Американская лунная программа «Артемида» предусматривает экспедиции длительностью от нескольких дней до долгих недель и даже месяцев, но луномобиля для передвижения экипажа по поверхности спутника Земли на сегодня нет. Поэтому космическое агентство США продумывает план действий на случай, если астронавты окажутся далеко от базы и кто-то из них внезапно не сможет идти самостоятельно.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно