Новый Завет поможет в спасении исчезающих языков — Naked Science
17.05.2017
Редакция Naked Science

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000
©Wikipedia

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Вчера, 16:28
Илья Ведмеденко

Модернизированный стратегический бомбардировщик Ту-160 снова поднялся в небо. Самолет среди прочего получил обновленную силовую установку.

Вчера, 12:59
Алиса Гаджиева

Несмотря на то, что в крестовых походах погибли тысячи людей, археологи невероятно редко обнаруживают их массовые захоронения. По одной из версий, убитых, найденных в этот раз, хоронил лично Людовик IX Святой, король Франции, предводитель двух крестовых походов.

Позавчера, 13:58
Алиса Гаджиева

На месте будущей дороги в Калининградской области археологи обнаружили некрополь III-VI веков нашей эры.

15 сентября
Ольга Иванова

Американские исследователи выяснили, что в женских тампонах содержатся летучие органические соединения, которые влияют на присутствие этих веществ в моче. Интересно, что в прокладках их содержание значительно ниже.

Вчера, 16:28
Илья Ведмеденко

Модернизированный стратегический бомбардировщик Ту-160 снова поднялся в небо. Самолет среди прочего получил обновленную силовую установку.

15 сентября
ПНИПУ

Ученые Пермского Политеха и Хуачжунского университета науки и технологии (КНР) создали уникальную технологию, которая позволит предприятиям производить промышленные изделия без дефектов. Лазерная сварка в вакууме позволит повысить качество ответственных конструкций в аэрокосмической и машиностроительной отраслях. Российские и зарубежные ученые реализовали разработку благодаря уникальному проекту международных исследовательских групп (МИГов), который действует в Пермском крае с 2011 года и не имеет аналогов в России.

3 сентября
Алиса Гаджиева

Два бронзовых тарана и свинцовые пули обнаружили на месте битвы при Эгатских островах, состоявшейся почти 23 века назад.

11 сентября
Алиса Гаджиева

Необычное погребение обнаружили во время работ по устройству пруда в гольф-клубе.

9 сентября
Алиса Гаджиева

Необычный артефакт обнаружили в одном из пунктов сбора вторсырья в Красноярском крае.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: