Предложен новый метод анализа юридических текстов
Сфера права сталкивается с необходимостью мгновенного и точного анализа множества правовых документов, судебных решений и законодательных актов. Традиционные методы анализа часто оказывались недостаточно эффективными, что в свою очередь подчеркивает потребность в современных технологических решениях. В частности, метод TF-IDF, используемый в качестве основы для построения дерева решений, представляет собой эффективный инструмент для выделения ключевых слов и понятий. Его и предложили применять ученые МТУСИ для анализа юридических текстов.
Дерево решений — метод машинного обучения, древовидная структура, где каждый узел представляет собой вопрос или тест на определенное свойство данных, каждая ветвь соответствует возможному ответу на этот вопрос, а каждый лист дерева — прогноз или решение. Построение дерева решений на основе алгоритма TF-IDF позволяет учитывать важность слов, выделяя ключевые термины и фильтруя часто встречающиеся слова. Этот подход обеспечивает легкость работы с текстовыми данными, интерпретируемость результатов и минимальные требования к предварительной обработке, что делает его удобным для задач категоризации и тематического анализа.
В МТУСИ над разработкой новой методики применения дерева решений, основанного на методе TF-IDF для анализа естественного языка при решении задач в области гражданского права, работали: Скородумова Елена Александровна, доцент кафедры ТВиПМ, кандидат физико-математических наук, доцент, и Захарьева Диана, студентка МТУСИ.
В ходе исследования они собрали массив данных с веб-ресурса https://sudact.ru/, который затем подвергался детальному анализу с акцентом на выявление релевантных глав и статей гражданского кодекса.
«В рамках сбора информации извлечено 12 дел в области гражданского права, которые впоследствии подверглись детальному изучению и анализу. Извлеченные обвинительные решения по делам были обработаны с целью выделения содержащихся в них мотивировочной части иска и дальнейшем внесении в разработанную программу для проведения дальнейшего исследования. В конечном итоге программа сформировала перечень глав и статей гражданского и семейного кодексов, и для каждого из них было приведено численное значение, отражающее степень соответствия между мотивировочной частью иска и содержанием определенной главы и статьи. Процедура сопоставления и оценки подобия проводилась для каждой главы и статьи отдельно», — отмечает Елена Александровна.
Исследователи отмечают, что перед анализом соответствия статей важно выявить соответствующие главы, основываясь на их расположении в списке, отсортированном по убыванию метрики релевантности.
«Дерево решений формировалось в несколько этапов. Сначала проводился расчет значений TF-IDF для кодексов, затем для разделов этих кодексов. Последующие этапы включают расчет TF-IDF для подразделов и, наконец, для глав. Полученные значения TF-IDF на каждом уровне иерархии перемножались между собой. Затем полученный список проходил процесс упорядочивания, при котором элементы расположились в порядке убывания значений. Это позволило выделить те главы, которые наиболее точно соответствуют иску», — рассказала об исследовании Захарьева Диана.
При построении дерева решений на основе алгоритма TF-IDF для поиска релевантных глав выявлены факторы, влияющие на качество модели: низкая эффективность при работе с большими объемами текста и отсутствие учета контекста. При анализе схожести статей и иска было обнаружено, что релевантные статьи расположены в первой половине отсортированного по убыванию метрики списка.
Установлено, что использование дерева решений, основанного на алгоритме TF-IDF, позволяет эффективно отфильтровать наиболее несоответствующие статьи и главы. Иными словами, этот метод способен провести отсев примерно половины глав, а в пределах каждой релевантной главы также отбросить около половины статей, исходя из степени их соответствия.
Исследователи уверены, что у нового метода есть потенциал для дальнейшего развития. Они планируют проведение дополнительных исследований и адаптацию методологии для расширения применения в различных контекстах, что откроет новые горизонты для эффективного анализа текста в области права.
Материал подготовлен на основе статьи «Применение дерева решений, основанного на методе TF-IDF, для анализа естественного языка при решении задач в области гражданского права», размещенной в сборнике трудов «Технологии информационного общества» (XVIII Международная отраслевая научно-техническая конференция).
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.
Ученые раскрыли причины удивительной сохранности крупнейшей из пирамид Гизы. Секрет того, что за прошедшие тысячелетия пирамиду не разрушили землетрясения, кроется в особенностях ее конструкции, в том числе в так называемых разгрузочных камерах, расположенных непосредственно над погребальной камерой фараона.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Астрофизики Южного федерального университета предложили объяснение одной из самых интригующих загадок современной физики — годичных колебаний сигнала в детекторе DAMA/LIBRA, который вот уже почти тридцать лет регистрирует странные сигналы в подземной лаборатории Гран-Сассо в Италии, интерпретируемые как взаимодействие частиц темной материи с обычным веществом.
Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
Релиз довольно неожиданно перенес время образования протонов и нейтронов в более раннее прошлое Вселенной. К сожалению, из его текста осталось неясным научное обоснование таких фундаментальных изменений в космологии. Также он резко передвинул в прошлое и момент возникновения реликтового излучения.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
