• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

В помощь архивистам и генеалогам: нейросети Яндекса научились расшифровывать архивные рукописные документы

Множество людей, которые интересовались историей своей семьи и обращались в архивы, чтобы изучить документы дореволюционной эпохи (метрические книги, ревизские сказки и прочие источники), сталкивались с проблемой расшифровки сложной орфографии этих документов. Теперь на помощь архивистам и генеалогам пришли нейросети.

©Яндекс

Специалисты компании Яндекс обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Звучит интересно, согласитесь, а что на деле?

1. На данный момент в базу невозможно добавить свои документы, которые вы, например, могли получить по запросу в архиве (например, копии страниц из ревизской сказки), чтобы нейросеть смогла их распознать.

2. В базе Яндекса присутствуют только документы из Главархива Москвы, архивов Оренбургской и Новгородской областей, но это уже распознанные и «переведенные» нейросетью документы, поэтому проверить качество работы сервиса не получится, однако, как обещают разработчики, скоро база пополнится новыми документами. В любом случае появление новой нейросети Яндекса — это замечательный шаг, ведь новая технология сможет не только помочь тысячам людей в составлении родословной, но предоставит историкам новые возможности для исследований.   

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий
Когда появится приложение для смартфонов, с помощью которого можно было бы читать еще не обработанные документы?
23 апреля, 18:34
Александр Березин

В последнее время пуски с российских северных космодромов осуществляют без предварительного уведомления, чего не было в прошлом. Вероятно, дело в недавно упомянутых главой «Роскосмоса» атаках на Плесецк во время пуска. Сегодняшний запуск обеспечил вывод на орбиту космических аппаратов военного назначения.

24 апреля, 09:58
Максим Абдулаев

Палеонтологи описали новый вид хищного клопа из мелового периода, передние лапы которого эволюционировали в клешни-пинцеты. Подобная анатомическая трансформация стала лишь четвертым задокументированным случаем за всю историю насекомых. Ископаемый вид получил название в честь корейской поп-группы Stray Kids из-за характерного положения застывших в смоле конечностей.

24 апреля, 10:49
Андрей Серегин

Наскальное искусство кенийского убежища Какапел всегда было летописью смены целых культур: геометрические узоры, коровы и абстрактные знаки накладываются там друг на друга в четыре четких слоя. Исследователи не только разделили эти слои, но и определили, что древнейшие рисунки оставили пигмееобразные охотники, а поздние изображения коров и геометрии — нилотоязычные скотоводы.

21 апреля, 20:03
Evgenia Vavilova

Химические связи в материале, из которого сделана электроника, разрываются не из-за накопительного износа от протекания тока через них, а из-за электронов с конкретной энергией.

21 апреля, 12:56
Татьяна Зайцева

Во время раскопок в древнем египетском городе Оксиринхе археологи обнаружили мумию, на живот которой при бальзамировании положили папирус, содержащий фрагмент из «Илиады» Гомера. Это первый подобный случай в истории археологии.

21 апреля, 09:28
Максим Абдулаев

Канадские экологи нашли антидепрессанты и опиоиды в мелких речных рыбках, живущих ниже по течению от городских стоков. Анализ показал, что самцы аккумулируют значительно больше нейроактивных веществ, чем самки. Разница обусловлена тем, что во время нереста самки сбрасывают накопленные жирорастворимые токсины прямо в свою икру.

23 апреля, 18:34
Александр Березин

В последнее время пуски с российских северных космодромов осуществляют без предварительного уведомления, чего не было в прошлом. Вероятно, дело в недавно упомянутых главой «Роскосмоса» атаках на Плесецк во время пуска. Сегодняшний запуск обеспечил вывод на орбиту космических аппаратов военного назначения.

5 апреля, 15:48
Александр Березин

Четыре человека, летящие к Луне, столкнулись с целым рядом мелких неприятностей — от низкой температуры в начале работы до поломки мочевыводящей системы туалета на вторые сутки и необходимости взамен пользоваться пакетами. К счастью, пока самые крупные сложности удалось компенсировать. Но все они вместе могут сдвинуть ситуацию к решению, о котором Naked Science уже говорил в нашем видеоподкасте о миссии: не исключено, что при высадке астронавтов на Луне их корабль состыкуют со Starship не на окололунной, а уже на околоземной орбите.

10 апреля, 10:51
Татьяна Зайцева

Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно