• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
10 октября, 12:19
НовГУ
289

Нейросеть научили читать и расшифровывать древнерусские грамоты

❋ 4.6

В НовГУ разработали систему искусственного интеллекта для автоматического распознавания и интерпретации текстов древнерусских грамот. Разработка вошла в число проектов-победителей грантового конкурса «Студенческий стартап» Фонда содействия инновациям. На её реализацию выделен один миллион рублей.

Черно-белые эскизы букв на фоне бумаги / © Пресс-служба НовГУ / Иван Филиппов

Автор разработки — магистрант Политехнического института, ассистент кафедры информационных технологий и систем Иван Филиппов. Руководитель проекта — доцент кафедры физики твёрдого тела и микроэлектроники Ирина Телина.

— Задача распознавания букв достаточно тривиальна в области компьютерного зрения, однако специфика древнерусских символов вносит дополнительную сложность, — отметил Иван Филиппов. — Эксперты подтверждают необходимость поиска новых инструментов для работы с древнерусскими документами. Только в Великом Новгороде уже найдено более 1200 берестяных грамот, и их количество продолжает расти с каждым годом. При этом процесс их расшифровки очень трудоёмкий и требует много времени. Многие символы могут иметь разные варианты прочтений, а разнообразие устаревших букв и наличие редких диакритических знаков усложняют классификацию по стандартным моделям.

Автоматических решений для таких задач на данный момент нет. Существующие аналоги либо недостаточно точны, либо нестабильны, либо требуют больших, размеченных вручную датасетов. Разработка Ивана Филиппова призвана стать новым быстрым инструментом для библиографиов, палеографов, архивистов.

Для обучения нейросети использовали датасет из пяти «эталонных» грамот, на которых буквы были размечены вручную. При отборе грамот было важно, чтобы они были целыми, крупными по объёму и содержали наибольшее разнообразие разборчиво написанных букв. Также в датасет вошли автоматические вырезки букв, сделанные детектором.

— С запуска детектора начинается процесс работы ИИ, — пояснил Иван Филиппов. — Детектор отвечает за обнаружение и объединение боксов вокруг букв. Боксы — это прямоугольники, заключающие в себе буквы. Так как модель не может принять полную грамоту и дать детальную расшифровку — необходимо давать ей буквы по отдельности, уже после собирая их в строки. Затем происходит сегментация, поиск контуров, объединение соседних боксов по дистанции и соотношение площадей. Далее для распознавания букв используется свёрточная сеть ResNet-18, адаптированная под вырезки 64х64 пикселя. Все полученные вырезки букв сохраняются в виде PNG-файлов, сгруппированных по классам. Экспорт данных реализован на языке программирования Python с использованием стандартных библиотек, что гарантирует лёгкую интеграцию и последующую аналитику.

На данный момент уже создано приложение, позволяющее быстро загружать фото, автоматически детектировать боксы, распознавать буквы и экспортировать результаты. Для удобства пользователя в нём используется интуитивный интерфейс Canvas позволяет быстро и наглядно загружать любые изображения грамот, использовать функции зума и панорамы для точного выбора областей, автоматически или вручную выделять рамки вокруг букв, мгновенно редактировать, перемещать, удалять и отменять действия. Все действия выполняются мышью и горячими клавишами, а готовые инструменты Python обеспечивают простоту интеграции и отзывчивость даже на больших изображениях.

Одна из эталонных грамот, размеченных вручную / © Пресс-служба НовГУ / Иван Филиппов

Система способна обучаться самостоятельно, в будущем этот процесс планируется полностью автоматизировать. Сейчас, по мере использования программы, датасет для обучения обогащается новыми качественными расшифровками.

— Система показала высокую производительность: полный прогон одного изображения занимает 1-2 секунды, — рассказал Иван Филиппов. — Также она демонстрирует надёжность и устойчивость благодаря компактной архитектуре, плавной работе пользовательского интерфейса. Точность распознавания высокая — после всех доработок и корректировок она составляет 98%. Система уже сейчас готова к интеграции в архивные и научные проекты по изучению древнерусских грамот. То, что уже сделано, позволяет раскрыть такие функции, как датирование и установка авторства грамоты. Также модель, обученная на грамотах, хорошо работает и с рукописями, что и является основной проблемой, к решению которой в итоге мы придём. Ведь у нас хранится множество рукописей, о которых, помимо самого текста, мало чего известно. В любом случае, мы открыты к взаимодействию и готовы работать со всеми, кто может быть заинтересован в реализации проекта — например, с Центром археологических исследований НовГУ.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Новгородский государственный университет им. Ярослава Мудрого (НовГУ) — крупнейший вуз Новгородской области, основанный в 1993 году и расположенный в Великом Новгороде. Участник программы «Приоритет 2030» с проектами «Материалы и технологии нового поколения для СВЧ ЭКБ» и «Масштабируемая сеть беспилотных маршрутов». Среди других крупных проектов — инновационный научно-технологический центр «Интеллектуальная электроника – Валдай» (позволяет решать задачи, поставленные правительством страны: импортозамещение, независимость российского производства от иностранных технологий и увеличение экспортной продукции). Резиденты ИНТЦ занимаются высокотехнологичными разработками в сфере медицины, ОПК, ТЭК, а также сельского и лесного хозяйства.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
23 ноября, 11:08
Максим Абдулаев

Бразильские зоологи выяснили, каких именно насекомых и пауков ловят домашние кошки в городах. Для этого использовали не полевые наблюдения, а анализ социальных сетей. Просмотрев более 17 000 видео и фото в TikTok и на фотостоке iStock, ученые нашли 550 записей кошачьей охоты. Самая частая добыча — кузнечики, сверчки, цикады и тараканы.

24 ноября, 08:30
Любовь С.

Чтобы охотиться при температурах ниже нуля, пауки рода Clubiona выработали особые белки-антифризы. Изучив членистоногих, собранных в грушевых садах неподалеку от города Брно (Чехия), ученые раскрыли молекулярный механизм, позволяющий этим паукам не впадать в зимнюю спячку.

23 ноября, 15:12
Любовь С.

Наблюдая за галактикой CANUCS-LRD-z8.6 с помощью космической обсерватории «Джеймс Уэбб», астрономы обнаружили в ее центре сверхмассивную черную дыру. Хотя она существовала всего через 500 миллионов лет после Большого взрыва, ее масса оказалась рекордной для столь ранней эпохи.

21 ноября, 10:02
ПНИПУ

Так называемые зумеры и альфа, несмотря на молодой возраст, уже формируют ключевые поведенческие и потребительские тренды. Ученые Пермского Политеха рассказали, почему обозначение поколений начали с конца алфавита, как альфа и зумеры отличаются в способности к терпеливости, совмещении цифрового и реального «Я», подходу к профессиональной деятельности и отношении к финансам, какое мышление пришло на смену клиповому и как использование искусственного интеллекта повлияет на авторитет родителей.

20 ноября, 13:12
Полина Меньшова

Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.

23 ноября, 11:08
Максим Абдулаев

Бразильские зоологи выяснили, каких именно насекомых и пауков ловят домашние кошки в городах. Для этого использовали не полевые наблюдения, а анализ социальных сетей. Просмотрев более 17 000 видео и фото в TikTok и на фотостоке iStock, ученые нашли 550 записей кошачьей охоты. Самая частая добыча — кузнечики, сверчки, цикады и тараканы.

25 октября, 10:40
Любовь С.

Проанализировав данные наблюдений, полученных с помощью наземных обсерваторий за последние два десятилетия, астрономы обнаружили потенциально обитаемый мир — суперземлю Gliese 251 c (GJ 251 с). Планета обращается вокруг красного карлика на расстоянии около 18 световых лет от Земли и считается одним из самых перспективных кандидатов для поисков жизни.

20 ноября, 13:12
Полина Меньшова

Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.

8 ноября, 18:29
Адель Романова

По расчетам, большинство «гостей» из других звездных систем летят к Земле примерно со стороны созвездия Геркулес. Скорее всего, они время от времени падают на нашу планету, просто мы еще не научились это замечать. Как удалось вычислить, чаще всего они должны падать зимой и где-то в окрестностях экватора.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно