Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Предложен новый метод анализа юридических текстов
Сфера права сталкивается с необходимостью мгновенного и точного анализа множества правовых документов, судебных решений и законодательных актов. Традиционные методы анализа часто оказывались недостаточно эффективными, что в свою очередь подчеркивает потребность в современных технологических решениях. В частности, метод TF-IDF, используемый в качестве основы для построения дерева решений, представляет собой эффективный инструмент для выделения ключевых слов и понятий. Его и предложили применять ученые МТУСИ для анализа юридических текстов.
Дерево решений — метод машинного обучения, древовидная структура, где каждый узел представляет собой вопрос или тест на определенное свойство данных, каждая ветвь соответствует возможному ответу на этот вопрос, а каждый лист дерева — прогноз или решение. Построение дерева решений на основе алгоритма TF-IDF позволяет учитывать важность слов, выделяя ключевые термины и фильтруя часто встречающиеся слова. Этот подход обеспечивает легкость работы с текстовыми данными, интерпретируемость результатов и минимальные требования к предварительной обработке, что делает его удобным для задач категоризации и тематического анализа.
В МТУСИ над разработкой новой методики применения дерева решений, основанного на методе TF-IDF для анализа естественного языка при решении задач в области гражданского права, работали: Скородумова Елена Александровна, доцент кафедры ТВиПМ, кандидат физико-математических наук, доцент, и Захарьева Диана, студентка МТУСИ.
В ходе исследования они собрали массив данных с веб-ресурса https://sudact.ru/, который затем подвергался детальному анализу с акцентом на выявление релевантных глав и статей гражданского кодекса.
«В рамках сбора информации извлечено 12 дел в области гражданского права, которые впоследствии подверглись детальному изучению и анализу. Извлеченные обвинительные решения по делам были обработаны с целью выделения содержащихся в них мотивировочной части иска и дальнейшем внесении в разработанную программу для проведения дальнейшего исследования. В конечном итоге программа сформировала перечень глав и статей гражданского и семейного кодексов, и для каждого из них было приведено численное значение, отражающее степень соответствия между мотивировочной частью иска и содержанием определенной главы и статьи. Процедура сопоставления и оценки подобия проводилась для каждой главы и статьи отдельно», — отмечает Елена Александровна.
Исследователи отмечают, что перед анализом соответствия статей важно выявить соответствующие главы, основываясь на их расположении в списке, отсортированном по убыванию метрики релевантности.
«Дерево решений формировалось в несколько этапов. Сначала проводился расчет значений TF-IDF для кодексов, затем для разделов этих кодексов. Последующие этапы включают расчет TF-IDF для подразделов и, наконец, для глав. Полученные значения TF-IDF на каждом уровне иерархии перемножались между собой. Затем полученный список проходил процесс упорядочивания, при котором элементы расположились в порядке убывания значений. Это позволило выделить те главы, которые наиболее точно соответствуют иску», — рассказала об исследовании Захарьева Диана.
При построении дерева решений на основе алгоритма TF-IDF для поиска релевантных глав выявлены факторы, влияющие на качество модели: низкая эффективность при работе с большими объемами текста и отсутствие учета контекста. При анализе схожести статей и иска было обнаружено, что релевантные статьи расположены в первой половине отсортированного по убыванию метрики списка.
Установлено, что использование дерева решений, основанного на алгоритме TF-IDF, позволяет эффективно отфильтровать наиболее несоответствующие статьи и главы. Иными словами, этот метод способен провести отсев примерно половины глав, а в пределах каждой релевантной главы также отбросить около половины статей, исходя из степени их соответствия.
Исследователи уверены, что у нового метода есть потенциал для дальнейшего развития. Они планируют проведение дополнительных исследований и адаптацию методологии для расширения применения в различных контекстах, что откроет новые горизонты для эффективного анализа текста в области права.
Материал подготовлен на основе статьи «Применение дерева решений, основанного на методе TF-IDF, для анализа естественного языка при решении задач в области гражданского права», размещенной в сборнике трудов «Технологии информационного общества» (XVIII Международная отраслевая научно-техническая конференция).
После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.
В 16.18 по московскому времени 28 декабря 2025 года с единственного гражданского космодрома на территории России произошел 17-й по счету космический запуск этого года. Перед ним на космодроме побывал корреспондент нашего издания, и вскоре мы выпустим репортаж о том, чем живет самый холодный космодром в мире.
Палеонтологи описали крупнейшее в мире скопление следов динозавров: более 16 000 вмятин на площади 7500 квадратных метров. Ученые считают, что эта территория была не просто местом случайных прогулок, а оживленной трассой, где динозавры организованно мигрировали вдоль берега древнего озера.
В России существуют тысячи рабочих мест с вредными и опасными условиями труда. На шахтах, металлургических заводах, в авиастроении люди годами находятся в условиях сильного шума, вибрации, запыленности и контакта с химикатами, что наносит серьезный ущерб здоровью. Однако существующие методы оценки рисков оказываются неэффективными для прогнозирования заболеваний, поскольку работают с усредненными показателями группы, а обязательные медосмотры определяют уже наступившую болезнь. Такая система лечит последствия, но не предотвращает причину. Ученые Пермского Политеха, управления Роспотребнадзора и ФНЦ медико-профилактических технологий управления рисками здоровью населения разработали программу, которая прогнозирует индивидуальные профессиональные риски здоровью для каждого конкретного работника с точностью 89%.
Биологи опровергли представление о примитивности органов чувств у древнейших бесчелюстных, обнаружив у миксин огромный арсенал рецепторов для поиска добычи. Исследователи доказали, что способность различать сложные запахи и аминокислоты появилась у общего предка позвоночных задолго до возникновения челюстей.
После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.
С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.
На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.
Среди самых интригующих открытий космического телескопа «Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
