• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

В помощь архивистам и генеалогам: нейросети Яндекса научились расшифровывать архивные рукописные документы

Множество людей, которые интересовались историей своей семьи и обращались в архивы, чтобы изучить документы дореволюционной эпохи (метрические книги, ревизские сказки и прочие источники), сталкивались с проблемой расшифровки сложной орфографии этих документов. Теперь на помощь архивистам и генеалогам пришли нейросети.

©Яндекс

Специалисты компании Яндекс обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Звучит интересно, согласитесь, а что на деле?

1. На данный момент в базу невозможно добавить свои документы, которые вы, например, могли получить по запросу в архиве (например, копии страниц из ревизской сказки), чтобы нейросеть смогла их распознать.

2. В базе Яндекса присутствуют только документы из Главархива Москвы, архивов Оренбургской и Новгородской областей, но это уже распознанные и «переведенные» нейросетью документы, поэтому проверить качество работы сервиса не получится, однако, как обещают разработчики, скоро база пополнится новыми документами. В любом случае появление новой нейросети Яндекса — это замечательный шаг, ведь новая технология сможет не только помочь тысячам людей в составлении родословной, но предоставит историкам новые возможности для исследований.   

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий
Когда появится приложение для смартфонов, с помощью которого можно было бы читать еще не обработанные документы?
Предстоящие мероприятия
16 сентября, 12:39
НовГУ

Ученый НовГУ обнаружил, что названия многих рек и озер в Новгородско-Псковских землях имеют балтское происхождение и связаны с системой водно-волоковых путей — маршрутов, где суда перетаскивали по суше между водоемами. Анализ гидронимов (например, Руна, Нетесьма, Дерзкое, Жукопа) доказывает, что эти транспортные артерии были активно освоены и использовались балтами еще до прихода славян.

16 сентября, 13:21
Адель Романова

Во время недавних наблюдений карликовой планеты Квавар что-то неожиданно почти полностью закрыло ее собой. Астрономы уверены, что это не ее спутник Вейвот и не одно из двух известных колец этого маленького мира на краю Солнечной системы.

16 сентября, 11:17
Полина Меньшова

Когда органы чувств не получают достаточного количества информации о том или ином объекте, мозг «достраивает» его образ с опорой на предыдущий опыт. Как именно это происходит, разобрались ученые из США.

12 сентября, 14:03
ТюмГУ

Исследования самодержавия могут пролить свет на феномен, исконно свойственный российской государственности, а значит, переосмыслить исторический путь России и выработку новых направлений развития, к такому выводу пришел ученый ТюмГУ.

16 сентября, 13:21
Адель Романова

Во время недавних наблюдений карликовой планеты Квавар что-то неожиданно почти полностью закрыло ее собой. Астрономы уверены, что это не ее спутник Вейвот и не одно из двух известных колец этого маленького мира на краю Солнечной системы.

15 сентября, 10:36
Игорь Байдов

Самая большая планета в Солнечной системе, всегда поражавшая воображение своими колоссальными размерами, немного сдала позиции. Новые высокоточные измерения орбитального зонда NASA показали, что Юпитер не такой большой и круглый, как считали астрономы последние 40 лет.

12 сентября, 14:03
ТюмГУ

Исследования самодержавия могут пролить свет на феномен, исконно свойственный российской государственности, а значит, переосмыслить исторический путь России и выработку новых направлений развития, к такому выводу пришел ученый ТюмГУ.

9 сентября, 11:03
Адель Романова

Третий известный межзвездный объект 3I/ATLAS летит примерно вдвое быстрее обоих своих предшественников. По расчетам, его вряд ли могло выбросить из родной планетной системы с подобной скоростью, и так разогнаться по пути он тоже не мог.

11 сентября, 12:04
ПНИПУ

Все больше покупателей начинают отказываться от привычки делать покупки на маркетплейсах, а число новых продавцов на площадках практически не увеличилось. Аналитика показывает, что за первый квартал 2025 года — прирост селлеров составил всего 0,45% по сравнению с аналогичным периодом прошлого года. В то же время, маркетплейсы активно расширяют сеть пунктов выдачи, особенно в регионах, где физическое присутствие всех брендов невозможно. Ученые Пермского Политеха рассказали, почему люди стали реже совершать покупки на маркетплейсах.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно