• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку

Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

В помощь архивистам и генеалогам: нейросети Яндекса научились расшифровывать архивные рукописные документы

Множество людей, которые интересовались историей своей семьи и обращались в архивы, чтобы изучить документы дореволюционной эпохи (метрические книги, ревизские сказки и прочие источники), сталкивались с проблемой расшифровки сложной орфографии этих документов. Теперь на помощь архивистам и генеалогам пришли нейросети.

©Яндекс

Специалисты компании Яндекс обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Звучит интересно, согласитесь, а что на деле?

1. На данный момент в базу невозможно добавить свои документы, которые вы, например, могли получить по запросу в архиве (например, копии страниц из ревизской сказки), чтобы нейросеть смогла их распознать.

2. В базе Яндекса присутствуют только документы из Главархива Москвы, архивов Оренбургской и Новгородской областей, но это уже распознанные и «переведенные» нейросетью документы, поэтому проверить качество работы сервиса не получится, однако, как обещают разработчики, скоро база пополнится новыми документами. В любом случае появление новой нейросети Яндекса — это замечательный шаг, ведь новая технология сможет не только помочь тысячам людей в составлении родословной, но предоставит историкам новые возможности для исследований.   

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Комментарии

1 Комментарий
Когда появится приложение для смартфонов, с помощью которого можно было бы читать еще не обработанные документы?
10 декабря, 10:00
Unitsky String Technologies Inc.

Развитие новых видов транспорта всегда упирается в один важный вопрос — безопасность. Любая перспективная технология должна не только работать эффективнее прежней, но и снижать потенциальный уровень риска для людей, инфраструктуры и окружающей среды.

9 декабря, 08:00
ТПУ

Ученые Томского политехнического университета исследовали, как добавление редкоземельных элементов (РЗЭ) с разной концентрацией влияет на формирование и свойства литиевого феррита. На сегодняшний день, этот материал используют, например, при изготовлении сердечников трансформаторов, антенн, устройств магнитной записи. В перспективе, выявленные политехниками закономерности делают литиевый феррит привлекательным для использования в СВЧ-устройствах, например, в качестве фазовращателей, переключателей, циркуляторов.

10 декабря, 11:49
Игорь Байдов

Раскопки мастерской, погребенной в Помпеях почти 2000 лет назад, помогли археологам больше узнать о римских строительных технологиях, а именно — определить методы изготовления римского бетона и раскрыть секрет его долговечности.

8 декабря, 13:09
Александр Березин

С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.

9 декабря, 10:59
НИУ ВШЭ

Специфическая тревога из-за ненадежности цифровых образов реальности и иллюзии тотального контроля над действительностью получила название «аффект зомби». Заведующий кафедрой философии НИУ ВШЭ — Санкт-Петербург Иван Микиртумов исследовал феномен в рамках проекта РНФ «Экзистенциальный опыт в цифровой среде».

8 декабря, 10:59
НИУ ВШЭ

Команда психолингвистов Центра языка и мозга НИУ ВШЭ обнаружила, что у подростков в возрасте 15–18 лет навыки фонологической обработки продолжают влиять на скорость чтения текстов. Это открытие опровергает убеждение, что к подростковому возрасту эти навыки уже не играют значимой роли в беглости чтения.

8 декабря, 13:09
Александр Березин

С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.

29 ноября, 12:42
Александр Березин

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

27 ноября, 20:20
Максим Абдулаев

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

[miniorange_social_login]
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно