• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

В помощь архивистам и генеалогам: нейросети Яндекса научились расшифровывать архивные рукописные документы

Множество людей, которые интересовались историей своей семьи и обращались в архивы, чтобы изучить документы дореволюционной эпохи (метрические книги, ревизские сказки и прочие источники), сталкивались с проблемой расшифровки сложной орфографии этих документов. Теперь на помощь архивистам и генеалогам пришли нейросети.

©Яндекс

Специалисты компании Яндекс обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Звучит интересно, согласитесь, а что на деле?

1. На данный момент в базу невозможно добавить свои документы, которые вы, например, могли получить по запросу в архиве (например, копии страниц из ревизской сказки), чтобы нейросеть смогла их распознать.

2. В базе Яндекса присутствуют только документы из Главархива Москвы, архивов Оренбургской и Новгородской областей, но это уже распознанные и «переведенные» нейросетью документы, поэтому проверить качество работы сервиса не получится, однако, как обещают разработчики, скоро база пополнится новыми документами. В любом случае появление новой нейросети Яндекса — это замечательный шаг, ведь новая технология сможет не только помочь тысячам людей в составлении родословной, но предоставит историкам новые возможности для исследований.   

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий
Когда появится приложение для смартфонов, с помощью которого можно было бы читать еще не обработанные документы?
Предстоящие мероприятия
20 февраля, 16:36
Александр Березин

Больше трети населения мира близоруки, а еще в 2000 году эта доля была в 1,5 раза ниже. Причины массового ухудшения зрения огромного числа людей активно обсуждаются учеными. Авторы новой работы считают, что прежние подходы боролись с проблемой не с того конца.

21 февраля, 10:00
Evgenia Vavilova

Исследователи смогли построить систему, использующую фемтосекундные лазеры и недорогое боросиликатное стекло для плотного хранения данных. Специалисты ожидают, что их технология сохранит данные читаемыми на 10 000 лет.

21 февраля, 12:18
Игорь Байдов

Ученые проверили 100 популярных кормов для собак и кошек и во многих из них нашли ПФАС, так называемые «вечные химикаты», причем одни из самых высоких концентраций обнаружили в продуктах на основе рыбы. Во многих случаях их уровень превышает пороги безопасности для людей, установленные европейским регулятором.

17 февраля, 10:00
ФизТех

Ученые из Института космических исследований РАН и МФТИ раскрыли химический механизм, объясняющий появление молекул воды на поверхностях астероидов.

17 февраля, 14:25
Любовь С.

Пройдя перигелий 30 октября 2025 года — ближайшую к Солнцу точку на своей траектории, — 3I/ATLAS буквально взорвалась активностью: объект выбросил мощные потоки воды, монооксида углерода (СО), углекислого газа (СО₂) и органических молекул, превратившись в полноценную комету. Наблюдения с помощью космической обсерватории SPHEREx впервые позволили увидеть, как вещество из другой звездной системы начинает полностью испаряться под Солнцем, раскрывая свой изначальный химический состав.

17 февраля, 09:30
СПбГУ

Исследователи Санкт-Петербургского государственного университета разработали эффективный способ обнаружения в крови важнейшего биомаркера иммунитета — неоптерина — с помощью нанотехнологий и лазера.

12 февраля, 07:52
Адель Романова

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

28 января, 10:50
Игорь Байдов

Международная команда палеонтологов описала новый вид динозавра размером с крупную современную птицу. Он носил на голове плотный костяной нарост, который эти животные, возможно, использовали для внутривидовых разборок. Находка показывает, что даже мелкие хищники мелового периода могли решать конфликты не только когтями и зубами, но и ударами головой.

26 января, 14:26
Александр Березин

Образцы грунта, взятые астронавтами полвека назад, вложили еще один важный кирпич в здание научной картины мира: гипотеза о том, что Земля исходно была сухой, не стыкуется с фактами. Похоже, идею о невозможности сохранения большого количества воды на «теплых» планетах придется пересмотреть.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно