• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
10 октября, 12:19
НовГУ
90

Нейросеть научили читать и расшифровывать древнерусские грамоты

❋ 4.6

В НовГУ разработали систему искусственного интеллекта для автоматического распознавания и интерпретации текстов древнерусских грамот. Разработка вошла в число проектов-победителей грантового конкурса «Студенческий стартап» Фонда содействия инновациям. На её реализацию выделен один миллион рублей.

Черно-белые эскизы букв на фоне бумаги / © Пресс-служба НовГУ / Иван Филиппов

Автор разработки — магистрант Политехнического института, ассистент кафедры информационных технологий и систем Иван Филиппов. Руководитель проекта — доцент кафедры физики твёрдого тела и микроэлектроники Ирина Телина.

— Задача распознавания букв достаточно тривиальна в области компьютерного зрения, однако специфика древнерусских символов вносит дополнительную сложность, — отметил Иван Филиппов. — Эксперты подтверждают необходимость поиска новых инструментов для работы с древнерусскими документами. Только в Великом Новгороде уже найдено более 1200 берестяных грамот, и их количество продолжает расти с каждым годом. При этом процесс их расшифровки очень трудоёмкий и требует много времени. Многие символы могут иметь разные варианты прочтений, а разнообразие устаревших букв и наличие редких диакритических знаков усложняют классификацию по стандартным моделям.

Автоматических решений для таких задач на данный момент нет. Существующие аналоги либо недостаточно точны, либо нестабильны, либо требуют больших, размеченных вручную датасетов. Разработка Ивана Филиппова призвана стать новым быстрым инструментом для библиографиов, палеографов, архивистов.

Для обучения нейросети использовали датасет из пяти «эталонных» грамот, на которых буквы были размечены вручную. При отборе грамот было важно, чтобы они были целыми, крупными по объёму и содержали наибольшее разнообразие разборчиво написанных букв. Также в датасет вошли автоматические вырезки букв, сделанные детектором.

— С запуска детектора начинается процесс работы ИИ, — пояснил Иван Филиппов. — Детектор отвечает за обнаружение и объединение боксов вокруг букв. Боксы — это прямоугольники, заключающие в себе буквы. Так как модель не может принять полную грамоту и дать детальную расшифровку — необходимо давать ей буквы по отдельности, уже после собирая их в строки. Затем происходит сегментация, поиск контуров, объединение соседних боксов по дистанции и соотношение площадей. Далее для распознавания букв используется свёрточная сеть ResNet-18, адаптированная под вырезки 64х64 пикселя. Все полученные вырезки букв сохраняются в виде PNG-файлов, сгруппированных по классам. Экспорт данных реализован на языке программирования Python с использованием стандартных библиотек, что гарантирует лёгкую интеграцию и последующую аналитику.

На данный момент уже создано приложение, позволяющее быстро загружать фото, автоматически детектировать боксы, распознавать буквы и экспортировать результаты. Для удобства пользователя в нём используется интуитивный интерфейс Canvas позволяет быстро и наглядно загружать любые изображения грамот, использовать функции зума и панорамы для точного выбора областей, автоматически или вручную выделять рамки вокруг букв, мгновенно редактировать, перемещать, удалять и отменять действия. Все действия выполняются мышью и горячими клавишами, а готовые инструменты Python обеспечивают простоту интеграции и отзывчивость даже на больших изображениях.

Одна из эталонных грамот, размеченных вручную / © Пресс-служба НовГУ / Иван Филиппов

Система способна обучаться самостоятельно, в будущем этот процесс планируется полностью автоматизировать. Сейчас, по мере использования программы, датасет для обучения обогащается новыми качественными расшифровками.

— Система показала высокую производительность: полный прогон одного изображения занимает 1-2 секунды, — рассказал Иван Филиппов. — Также она демонстрирует надёжность и устойчивость благодаря компактной архитектуре, плавной работе пользовательского интерфейса. Точность распознавания высокая — после всех доработок и корректировок она составляет 98%. Система уже сейчас готова к интеграции в архивные и научные проекты по изучению древнерусских грамот. То, что уже сделано, позволяет раскрыть такие функции, как датирование и установка авторства грамоты. Также модель, обученная на грамотах, хорошо работает и с рукописями, что и является основной проблемой, к решению которой в итоге мы придём. Ведь у нас хранится множество рукописей, о которых, помимо самого текста, мало чего известно. В любом случае, мы открыты к взаимодействию и готовы работать со всеми, кто может быть заинтересован в реализации проекта — например, с Центром археологических исследований НовГУ.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Новгородский государственный университет им. Ярослава Мудрого (НовГУ) — крупнейший вуз Новгородской области, основанный в 1993 году и расположенный в Великом Новгороде. Участник программы «Приоритет 2030» с проектами «Материалы и технологии нового поколения для СВЧ ЭКБ» и «Масштабируемая сеть беспилотных маршрутов». Среди других крупных проектов — инновационный научно-технологический центр «Интеллектуальная электроника – Валдай» (позволяет решать задачи, поставленные правительством страны: импортозамещение, независимость российского производства от иностранных технологий и увеличение экспортной продукции). Резиденты ИНТЦ занимаются высокотехнологичными разработками в сфере медицины, ОПК, ТЭК, а также сельского и лесного хозяйства.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
9 октября, 08:22
Александр Березин

Моаи, каменные статуи острова Пасхи, по массе могут превышать 80 тонн при высоте жилого дома. Долгое время ученым не удавалось понять, как люди с технологиями каменного века перемещали их по всему острову. Авторы новой научной работы, наконец, смогли полностью восстановить метод потомков полинезийцев и южноамериканских индейцев.

8 октября, 17:24
Адель Романова

В атмосфере Венеры наблюдают убедительные химические признаки постоянно вспыхивающих молний. По расчетам, эти разряды должны быть либо гораздо мощнее земных, либо происходят чаще. Возникает вопрос: почему тогда их не видно? По мнению исследователей, дело — в почти непроницаемых венерианских облаках, скрывающих вспышки. Самое интересное, что к возникновению молний они могут оказаться непричастны.

10 октября, 12:03
Мария Азарова

Норвежский нобелевский комитет в Осло объявил, что премию мира в этом году получает Мария Корина Мачадо, лидер оппозиции Венесуэлы.

7 октября, 11:46
Игорь Байдов

Экспедиционное судно «Эндьюранс» более века называли самым прочным деревянным судном, когда-либо построенным человеком. Но находка, сделанная на дне моря, и изучение старых писем раскрыли неприятную правду. Легендарный «Эндьюранс» Шеклтона вовсе не был непобедимым левиафаном. Напротив, он имел фатальные недостатки, а капитан знал об этом еще до того, как ушел в роковое плавание к берегам Антарктиды.

4 октября, 14:06
Адель Романова

По общепринятой и незыблемой до сих пор версии, Уран и Нептун — ледяные гиганты: основную часть их массы составляют летучие вещества в особом состоянии «горячих льдов». Теперь у планетологов появилась альтернативная гипотеза: они подозревают, что никаких «горячих льдов» внутри них может не быть, а вместо этого есть крупные каменные ядра, окруженные легкой газовой оболочкой.

8 октября, 17:24
Адель Романова

В атмосфере Венеры наблюдают убедительные химические признаки постоянно вспыхивающих молний. По расчетам, эти разряды должны быть либо гораздо мощнее земных, либо происходят чаще. Возникает вопрос: почему тогда их не видно? По мнению исследователей, дело — в почти непроницаемых венерианских облаках, скрывающих вспышки. Самое интересное, что к возникновению молний они могут оказаться непричастны.

20 сентября, 08:52
Александр Березин

Посадка, включая выгорание куска степи, прошла штатно, но часть грызунов на борту погибли. Правда, погубила их не повышенная космическая радиация полярной орбиты, влияние которой на млекопитающих планировали выявить в миссии, а более банальные причины.

12 сентября, 14:03
ТюмГУ

Исследования самодержавия могут пролить свет на феномен, исконно свойственный российской государственности, а значит, переосмыслить исторический путь России и выработку новых направлений развития, к такому выводу пришел ученый ТюмГУ.

26 сентября, 11:41
ИИМК РАН

Археологи Института истории материальной культуры РАН (ИИМК РАН), при поддержке фонда «История отечества» в ходе раскопок обнаружили на всемирно известной стоянке каменного века Костенки-17 в Воронежской области редчайшие украшения из зубов песца и окаменелой раковины, а также уникальный для этого времени нуклеус из бивня мамонта для снятия заготовок.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно