• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

В помощь архивистам и генеалогам: нейросети Яндекса научились расшифровывать архивные рукописные документы

Множество людей, которые интересовались историей своей семьи и обращались в архивы, чтобы изучить документы дореволюционной эпохи (метрические книги, ревизские сказки и прочие источники), сталкивались с проблемой расшифровки сложной орфографии этих документов. Теперь на помощь архивистам и генеалогам пришли нейросети.

©Яндекс

Специалисты компании Яндекс обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Звучит интересно, согласитесь, а что на деле?

1. На данный момент в базу невозможно добавить свои документы, которые вы, например, могли получить по запросу в архиве (например, копии страниц из ревизской сказки), чтобы нейросеть смогла их распознать.

2. В базе Яндекса присутствуют только документы из Главархива Москвы, архивов Оренбургской и Новгородской областей, но это уже распознанные и «переведенные» нейросетью документы, поэтому проверить качество работы сервиса не получится, однако, как обещают разработчики, скоро база пополнится новыми документами. В любом случае появление новой нейросети Яндекса — это замечательный шаг, ведь новая технология сможет не только помочь тысячам людей в составлении родословной, но предоставит историкам новые возможности для исследований.   

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий

2 недели назад
-
0
+
Когда появится приложение для смартфонов, с помощью которого можно было бы читать еще не обработанные документы?
5 часов назад
Мария Азарова

Авторы нового исследования провели эксперимент почти с 70 собаками разных пород, чтобы узнать, как они реагируют на вой одного волка и целой стаи.

Вчера, 07:07
Мария Азарова

Согласно выводам авторов нового исследования, прием витамина D коррелирует с более низкой вероятностью того, что взрослый мужчина предпримет попытку суицида или членовредительства.

Вчера, 10:33
Сергей Васильев

Эксперименты показали, что инъекции кисспептина могут возвращать сексуальный интерес и тягу к противоположному полу. Метод успешно работает и на мужчинах, и на женщинах, хотя нуждается в дополнительных испытаниях.

2 февраля
НИУ ВШЭ

Изучая потребление алкоголя, экономисты и социологи обычно связывают его с условиями жизни людей и их человеческим капиталом: образованием, опытом работы, знаниями. Ученые из Лаборатории исследований рынка труда и Лаборатории экономико-социологических исследований НИУ ВШЭ обратили внимание на некогнитивные навыки, формирующиеся в детстве и подростковом возрасте, и выяснили, что эти качества во многом определяют вероятность злоупотребления спиртным и сокращают степень влияния образования.

3 февраля
Василий Парфенов

«Недостаточно комковатая» — так описал обнаруженную аномалию один из авторов нового исследования. В нем на основе наблюдений сразу двух обсерваторий, работающих с разными диапазонами излучений, удалось создать карту распределения материи во Вселенной с беспрецедентной точностью. Благодаря этому выяснилось, что стандартная модель — главная современная теория мироустройства, описывающая все частицы, поля и взаимодействия, кроме гравитации — имеет все шансы быть неполной.

1 февраля
Сергей Васильев

Американский стартап, занятый возвращением к жизни вымерших животных, объявил о начале работы с додо — почти легендарными птицами, которых люди перебили еще несколько веков назад.

10 января
Алиса Гаджиева

Исследователи, изучающие систему обороны Великой стены, обнаружили следы более 130 секретных сквозных проходов и полагают, что это только начало.

25 января
Василий Парфенов

Пока фанаты SpaceX увлеченно следят за достижениями компании, астрономы грустно наблюдают, как их работа становится сложнее с каждым запуском спутников Starlink. Прогресс не проходит без жертв. Поэтому различные научные ассоциации ищут способы снизить негативное влияние множества новых рукотворных объектов в околоземном пространстве на качество данных, получаемых телескопами. Некоторые решения со стороны выглядят экстремальными — например, теперь лазеры для корректировки адаптивной оптики можно не выключать, если в поле зрения есть спутник Starlink. А это десятки ватт излучения!

9 января
Александр Березин

Избыточный вес убивает куда больше людей, чем войны с голодом вместе. До самых недавних пор это объясняли то «мусорным» фастудным питанием, то недостаточными физическими нагрузками. Научные работы показывают: эти гипотезы были неверны. За последние полвека сильно потолстели даже лабораторные животные, корм и нагрузки которых не менялись. Эпидемия лишнего веса действительно убийственна, но ее причина не в калориях или нехватке нагрузки. А в чем же? Naked Science исследует для вас этот вопрос.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно