• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

В помощь архивистам и генеалогам: нейросети Яндекса научились расшифровывать архивные рукописные документы

Множество людей, которые интересовались историей своей семьи и обращались в архивы, чтобы изучить документы дореволюционной эпохи (метрические книги, ревизские сказки и прочие источники), сталкивались с проблемой расшифровки сложной орфографии этих документов. Теперь на помощь архивистам и генеалогам пришли нейросети.

©Яндекс

Специалисты компании Яндекс обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Звучит интересно, согласитесь, а что на деле?

1. На данный момент в базу невозможно добавить свои документы, которые вы, например, могли получить по запросу в архиве (например, копии страниц из ревизской сказки), чтобы нейросеть смогла их распознать.

2. В базе Яндекса присутствуют только документы из Главархива Москвы, архивов Оренбургской и Новгородской областей, но это уже распознанные и «переведенные» нейросетью документы, поэтому проверить качество работы сервиса не получится, однако, как обещают разработчики, скоро база пополнится новыми документами. В любом случае появление новой нейросети Яндекса — это замечательный шаг, ведь новая технология сможет не только помочь тысячам людей в составлении родословной, но предоставит историкам новые возможности для исследований.   

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий
-
0
+
Когда появится приложение для смартфонов, с помощью которого можно было бы читать еще не обработанные документы?
Вчера, 07:56
Андрей

Европейские палеонтологи изучили исключительно сохранившийся скелет плезиозавра из юрского периода, обнаруженный в Германии еще в 1940 году. Тогда ископаемую рептилию спрятали от разрушений войны в музей, а через 80 лет выяснилось, что на теле древнего животного остались мягкие ткани — кожа с уцелевшими клеточными ядрами и чешуйки. Новые данные дополняют представление о внешнем виде плезиозавров, живших больше 180 миллионов лет назад.

Вчера, 12:04
Елизавета Александрова

Астрономы обнаружили, что почти треть всех наблюдаемых галактик во Вселенной объединены в пять самых широкомасштабных структур — галактические сверхскопления. На составленной учеными трехмерной карте одно особенно выделяется своими рекордными размерами: простирается на миллиард с лишним световых лет.

Позавчера, 12:00
Михаил Орлов

Бактериофаги — вирусы, которые заражают бактерии, — приобрели множество хитроумных адаптаций к жизни внутри клетки. Джамбо-фаги среди них выделяются рекордными размерами — как вирусной частицы, так и генома. Вирусы-«слоны» даже приобрели структуру наподобие ядра эукариот, хранящую генетический материал. Авторы новой статьи в Nature узнали, как такое «ядро» импортирует из цитоплазмы бактерии необходимые вирусу белки.

Вчера, 07:56
Андрей

Европейские палеонтологи изучили исключительно сохранившийся скелет плезиозавра из юрского периода, обнаруженный в Германии еще в 1940 году. Тогда ископаемую рептилию спрятали от разрушений войны в музей, а через 80 лет выяснилось, что на теле древнего животного остались мягкие ткани — кожа с уцелевшими клеточными ядрами и чешуйки. Новые данные дополняют представление о внешнем виде плезиозавров, живших больше 180 миллионов лет назад.

Вчера, 12:04
Елизавета Александрова

Астрономы обнаружили, что почти треть всех наблюдаемых галактик во Вселенной объединены в пять самых широкомасштабных структур — галактические сверхскопления. На составленной учеными трехмерной карте одно особенно выделяется своими рекордными размерами: простирается на миллиард с лишним световых лет.

Позавчера, 12:00
Михаил Орлов

Бактериофаги — вирусы, которые заражают бактерии, — приобрели множество хитроумных адаптаций к жизни внутри клетки. Джамбо-фаги среди них выделяются рекордными размерами — как вирусной частицы, так и генома. Вирусы-«слоны» даже приобрели структуру наподобие ядра эукариот, хранящую генетический материал. Авторы новой статьи в Nature узнали, как такое «ядро» импортирует из цитоплазмы бактерии необходимые вирусу белки.

31 января
Березин Александр

В 2022-2025 годах страны Западной Европы попытались отказаться от природного газа из России. Автор новой работы показал, что получившиеся при этом результаты были во многом противоположны целям.

13 января
Юлия Трепалина

Многие предпочитают вступать в романтические отношения с людьми примерно своего возраста, но есть и пары с существенной возрастной разницей. Международная группа ученых недавно на крупной выборке людей проследила за изменениями возраста партнеров на старте отношений в разные годы жизни.

14 января
Елизавета Александрова

По распространению сейсмических волн в недрах Земли геологи словно «сканируют» планету и обнаруживают все больше интересных особенностей ее внутреннего строения. Недавно очередное такое исследование заставило ученых особенно внимательно рассмотреть то, что скрывается под Тихоокеанской литосферной плитой.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно