• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

В помощь архивистам и генеалогам: нейросети Яндекса научились расшифровывать архивные рукописные документы

Множество людей, которые интересовались историей своей семьи и обращались в архивы, чтобы изучить документы дореволюционной эпохи (метрические книги, ревизские сказки и прочие источники), сталкивались с проблемой расшифровки сложной орфографии этих документов. Теперь на помощь архивистам и генеалогам пришли нейросети.

©Яндекс

Специалисты компании Яндекс обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Звучит интересно, согласитесь, а что на деле?

1. На данный момент в базу невозможно добавить свои документы, которые вы, например, могли получить по запросу в архиве (например, копии страниц из ревизской сказки), чтобы нейросеть смогла их распознать.

2. В базе Яндекса присутствуют только документы из Главархива Москвы, архивов Оренбургской и Новгородской областей, но это уже распознанные и «переведенные» нейросетью документы, поэтому проверить качество работы сервиса не получится, однако, как обещают разработчики, скоро база пополнится новыми документами. В любом случае появление новой нейросети Яндекса — это замечательный шаг, ведь новая технология сможет не только помочь тысячам людей в составлении родословной, но предоставит историкам новые возможности для исследований.   

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий
Когда появится приложение для смартфонов, с помощью которого можно было бы читать еще не обработанные документы?
5 июня, 14:32
Илья Гриднев

Астрономы провели длительную радиодиагностику межзвездного объекта 3I/ATLAS и не нашли признаков искусственных технологий. Наблюдение окончательно подтвердило естественную природу ледяного тела, хотя ученые изначально не ожидали сенсации.

5 июня, 19:07
Редакция Naked Science

Согласно официальному комментарию «Роскосмоса» и NASA, безопасности экипажа ничего не угрожает. Ликвидация утечки продолжается, ее результаты станут ясны позднее.

5 июня, 11:32
Максим Абдулаев

Тысячу лет назад колоссальный степной пояс от Амура до Дуная назывался Великой степью. На Руси его знали как Дикую степь. В этом краю жили кочевники, и среди них — хищная птица сокол-балобан. Сейчас цельной трансконтинентальной популяции балобана больше нет. Небольшой европейский островок уцелел в Венгрии, Австрии и в Крыму. Есть популяция в Казахстане, Монголии и Китае. В России сокол-балобан, помимо Крыма, живет в горах Южной Сибири. И выживание этой популяции, как и всего вида, под угрозой. Как живет эта птица и как ей помогают в нашей стране? Зачем в Хакасии посреди «нигде» построили огромный облёточник? Буквально сегодня в него уже доставили первую партию птиц.

31 мая, 11:48
Игорь Байдов

Исследователи опросили более 60 тысяч испытуемых из разных стран и выяснили: чем больше человек зациклен на себе, тем холоднее он к своему партнеру. Правда, снижение накала страстей не всегда плохо, у этого есть и положительные стороны.

5 июня, 14:32
Илья Гриднев

Астрономы провели длительную радиодиагностику межзвездного объекта 3I/ATLAS и не нашли признаков искусственных технологий. Наблюдение окончательно подтвердило естественную природу ледяного тела, хотя ученые изначально не ожидали сенсации.

1 июня, 08:40
Любовь С.

Около четырех миллиардов лет назад Солнечная система пребывала в хаосе: гигантские планеты сближались, меняли орбиты и выбрасывали своих соседей в межзвездное пространство. Хотя шансы на «выживание» лун Юпитера и Урана в этот период были крайне малы, астрономы показали, что их судьба может хранить следы древней катастрофы с участием «потерянной» планеты.

17 мая, 10:35
Игорь Байдов

В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.

25 мая, 14:00
Андрей Серегин

В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.

17 мая, 10:00
Evgenia Vavilova

При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Авторизуясь, вы даете согласие на обработку персональных данных и подтверждаете ознакомление с Политикой.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно