• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

В помощь архивистам и генеалогам: нейросети Яндекса научились расшифровывать архивные рукописные документы

Множество людей, которые интересовались историей своей семьи и обращались в архивы, чтобы изучить документы дореволюционной эпохи (метрические книги, ревизские сказки и прочие источники), сталкивались с проблемой расшифровки сложной орфографии этих документов. Теперь на помощь архивистам и генеалогам пришли нейросети.

©Яндекс

Специалисты компании Яндекс обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Звучит интересно, согласитесь, а что на деле?

1. На данный момент в базу невозможно добавить свои документы, которые вы, например, могли получить по запросу в архиве (например, копии страниц из ревизской сказки), чтобы нейросеть смогла их распознать.

2. В базе Яндекса присутствуют только документы из Главархива Москвы, архивов Оренбургской и Новгородской областей, но это уже распознанные и «переведенные» нейросетью документы, поэтому проверить качество работы сервиса не получится, однако, как обещают разработчики, скоро база пополнится новыми документами. В любом случае появление новой нейросети Яндекса — это замечательный шаг, ведь новая технология сможет не только помочь тысячам людей в составлении родословной, но предоставит историкам новые возможности для исследований.   

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий

2 недели назад
-
0
+
Когда появится приложение для смартфонов, с помощью которого можно было бы читать еще не обработанные документы?
Предстоящие мероприятия
5 часов назад
Ольга Иванова

Немецкие ученые проанализировали данные общенациональных исследований и пришли к выводу, что с марта 2022 года в больницах Германии с поразительной частотой наблюдаются случаи устойчивости к антибиотикам последней инстанции. Выяснилось, что неубиваемые патогены, по-видимому, принесли в страну украинские беженцы.

Позавчера, 19:19
Василий Парфенов

«Недостаточно комковатая» — так описал обнаруженную аномалию один из авторов нового исследования. В нем на основе наблюдений сразу двух обсерваторий, работающих с разными диапазонами излучений, удалось создать карту распределения материи во Вселенной с беспрецедентной точностью. Благодаря этому выяснилось, что стандартная модель — главная современная теория мироустройства, описывающая все частицы, поля и взаимодействия, кроме гравитации — имеет все шансы быть неполной.

Вчера, 13:41
Анна Новиковская

В черных дырах заключено множество тайн, и теперь астрономам удалось раскрыть одну из них: почему раскаленные диски вокруг них иногда мерцают.

2 февраля
НИУ ВШЭ

Изучая потребление алкоголя, экономисты и социологи обычно связывают его с условиями жизни людей и их человеческим капиталом: образованием, опытом работы, знаниями. Ученые из Лаборатории исследований рынка труда и Лаборатории экономико-социологических исследований НИУ ВШЭ обратили внимание на некогнитивные навыки, формирующиеся в детстве и подростковом возрасте, и выяснили, что эти качества во многом определяют вероятность злоупотребления спиртным и сокращают степень влияния образования.

5 часов назад
Ольга Иванова

Немецкие ученые проанализировали данные общенациональных исследований и пришли к выводу, что с марта 2022 года в больницах Германии с поразительной частотой наблюдаются случаи устойчивости к антибиотикам последней инстанции. Выяснилось, что неубиваемые патогены, по-видимому, принесли в страну украинские беженцы.

1 февраля
Сергей Васильев

Американский стартап, занятый возвращением к жизни вымерших животных, объявил о начале работы с додо — почти легендарными птицами, которых люди перебили еще несколько веков назад.

10 января
Алиса Гаджиева

Исследователи, изучающие систему обороны Великой стены, обнаружили следы более 130 секретных сквозных проходов и полагают, что это только начало.

25 января
Василий Парфенов

Пока фанаты SpaceX увлеченно следят за достижениями компании, астрономы грустно наблюдают, как их работа становится сложнее с каждым запуском спутников Starlink. Прогресс не проходит без жертв. Поэтому различные научные ассоциации ищут способы снизить негативное влияние множества новых рукотворных объектов в околоземном пространстве на качество данных, получаемых телескопами. Некоторые решения со стороны выглядят экстремальными — например, теперь лазеры для корректировки адаптивной оптики можно не выключать, если в поле зрения есть спутник Starlink. А это десятки ватт излучения!

5 января
Александра Медведева

Биологи показали, что нейронные сети гиппокампа, ответственные за пространственное восприятие, изменяются не линейным образом, а в соответствии с гиперболической геометрией. То есть мозг представляет пространство в форме расширяющихся песочных часов. Результаты исследования могут иметь значение для лучшего понимания различных нейродегенеративных расстройств.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно