Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Предложен новый метод анализа юридических текстов
Сфера права сталкивается с необходимостью мгновенного и точного анализа множества правовых документов, судебных решений и законодательных актов. Традиционные методы анализа часто оказывались недостаточно эффективными, что в свою очередь подчеркивает потребность в современных технологических решениях. В частности, метод TF-IDF, используемый в качестве основы для построения дерева решений, представляет собой эффективный инструмент для выделения ключевых слов и понятий. Его и предложили применять ученые МТУСИ для анализа юридических текстов.
Дерево решений — метод машинного обучения, древовидная структура, где каждый узел представляет собой вопрос или тест на определенное свойство данных, каждая ветвь соответствует возможному ответу на этот вопрос, а каждый лист дерева — прогноз или решение. Построение дерева решений на основе алгоритма TF-IDF позволяет учитывать важность слов, выделяя ключевые термины и фильтруя часто встречающиеся слова. Этот подход обеспечивает легкость работы с текстовыми данными, интерпретируемость результатов и минимальные требования к предварительной обработке, что делает его удобным для задач категоризации и тематического анализа.
В МТУСИ над разработкой новой методики применения дерева решений, основанного на методе TF-IDF для анализа естественного языка при решении задач в области гражданского права, работали: Скородумова Елена Александровна, доцент кафедры ТВиПМ, кандидат физико-математических наук, доцент, и Захарьева Диана, студентка МТУСИ.
В ходе исследования они собрали массив данных с веб-ресурса https://sudact.ru/, который затем подвергался детальному анализу с акцентом на выявление релевантных глав и статей гражданского кодекса.
«В рамках сбора информации извлечено 12 дел в области гражданского права, которые впоследствии подверглись детальному изучению и анализу. Извлеченные обвинительные решения по делам были обработаны с целью выделения содержащихся в них мотивировочной части иска и дальнейшем внесении в разработанную программу для проведения дальнейшего исследования. В конечном итоге программа сформировала перечень глав и статей гражданского и семейного кодексов, и для каждого из них было приведено численное значение, отражающее степень соответствия между мотивировочной частью иска и содержанием определенной главы и статьи. Процедура сопоставления и оценки подобия проводилась для каждой главы и статьи отдельно», — отмечает Елена Александровна.
Исследователи отмечают, что перед анализом соответствия статей важно выявить соответствующие главы, основываясь на их расположении в списке, отсортированном по убыванию метрики релевантности.
«Дерево решений формировалось в несколько этапов. Сначала проводился расчет значений TF-IDF для кодексов, затем для разделов этих кодексов. Последующие этапы включают расчет TF-IDF для подразделов и, наконец, для глав. Полученные значения TF-IDF на каждом уровне иерархии перемножались между собой. Затем полученный список проходил процесс упорядочивания, при котором элементы расположились в порядке убывания значений. Это позволило выделить те главы, которые наиболее точно соответствуют иску», — рассказала об исследовании Захарьева Диана.
При построении дерева решений на основе алгоритма TF-IDF для поиска релевантных глав выявлены факторы, влияющие на качество модели: низкая эффективность при работе с большими объемами текста и отсутствие учета контекста. При анализе схожести статей и иска было обнаружено, что релевантные статьи расположены в первой половине отсортированного по убыванию метрики списка.
Установлено, что использование дерева решений, основанного на алгоритме TF-IDF, позволяет эффективно отфильтровать наиболее несоответствующие статьи и главы. Иными словами, этот метод способен провести отсев примерно половины глав, а в пределах каждой релевантной главы также отбросить около половины статей, исходя из степени их соответствия.
Исследователи уверены, что у нового метода есть потенциал для дальнейшего развития. Они планируют проведение дополнительных исследований и адаптацию методологии для расширения применения в различных контекстах, что откроет новые горизонты для эффективного анализа текста в области права.
Материал подготовлен на основе статьи «Применение дерева решений, основанного на методе TF-IDF, для анализа естественного языка при решении задач в области гражданского права», размещенной в сборнике трудов «Технологии информационного общества» (XVIII Международная отраслевая научно-техническая конференция).
В Бразилии проживает более 200 миллионов человек, немалую долю которых занимают потомки иммигрантов. Колонизация с XV по XX века считается самым масштабным переселением народов в истории. Порядка пяти миллионов человек переселились туда из Европы. Столько же насильно переместили с Африканского континента. Сегодня бразильцы — это наиболее генетически разнородная нация, и одна из самых малоизученных. Поэтому неудивительно, что новая работа по результатам полногеномного анализа населения принесла целый ряд открытий.
Физики долго не могли определиться, является ли висмут топологическим материалом. Детальное исследование показало, что ученым стоит передоговориться о терминах.
Экс-спикер Минобороны Армении Арцрун Ованнисян в эфире армянского Общественного телевидения решил «развеять миф» о Второй мировой войне. В частности, он заявил, что выигрыш Сталинградской битвы был не спасением для страны. Напротив, если бы немцы победили, уверен он, была бы создана объединенная историческая Армения — куда вошли бы земли, сегодня удерживаемые Турцией. Так ли все было на самом деле?
В Бразилии проживает более 200 миллионов человек, немалую долю которых занимают потомки иммигрантов. Колонизация с XV по XX века считается самым масштабным переселением народов в истории. Порядка пяти миллионов человек переселились туда из Европы. Столько же насильно переместили с Африканского континента. Сегодня бразильцы — это наиболее генетически разнородная нация, и одна из самых малоизученных. Поэтому неудивительно, что новая работа по результатам полногеномного анализа населения принесла целый ряд открытий.
Сегодня исполнилось 38 лет с момента первого летного испытания последнего советского космического гиганта — сверхтяжелой ракеты-носителя «Энергия». Ее запустили 15 мая 1987 года. Технически успешный проект дошел до полностью рабочего изделия, безупречно выполнившего два испытательных полета. Но так и не дошел до летной эксплуатации по причинам, от него уже не зависевшим. А запуск ракеты прошел тогда безупречно, хотя и не без особенностей — и одним из участников этих испытаний был автор Naked Science. Но обо всем по порядку.
Самые устойчивые объекты во Вселенной — нейтронные звезды, белые карлики и черные дыры — рано или поздно исчезнут. К такому выводу пришли авторы нового исследования, показавшие, что эти сверхплотные тела испаряются под действием квантовых эффектов, возникающих в искривленном пространстве-времени, даже в отсутствие горизонта событий, который ранее считался необходимым условием для излучения Хокинга.
Да, с волосами и люком все так. У космонавта Суниты Уильямс волосы на МКС плавали свободно, а у Кэти Пэрри и прочих в полете 14 апреля 2025 года — нет. Но это не значит, что суборбитального космического полета первого чисто женского экипажа не было или что он был инсценировкой. Причем, в общем-то, чтобы понять это, даже не нужно обладать специальными знаниями.
Мощнейшее отключение электроэнергии за последние 20 лет истории Европы случилось уже неделю назад, а испанские власти пока так и не объявили о его причинах. Это логично: как мы покажем ниже, ответ на вопрос, кто виноват, получится очень неполиткорректным. И, более того, противоречащим линии правящей в Испании партии. Но мы живем за тысячи километров от нее, поэтому можем себе позволить аполитичный анализ случившегося. Так что же произошло на самом деле и каковы наши шансы увидеть подобное у себя дома?
Инженеры компании UST Inc. разработали передовой рельсовый беспилотник, способный передвигаться на скорости до 500 километров в час. Юнибус U5-75304 предназначен для перевозки пассажиров и может в перспективе заменить среднемагистральную авиацию. Давайте узнаем, как конструктивные особенности обеспечивают продолжительное движение на больших скоростях, комфорт и безопасность пассажирам.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии