Новый Завет поможет в спасении исчезающих языков — Naked Science
17.05.2017
6 минут
Редакция
68

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Позавчера, 14:48
26 минут
Александр Березин

Земная атмосфера 2,7 миллиарда лет назад состояла в основном из углекислого газа — и было его там до тысячи раз больше, чем сегодня. При этом азота почти не было, хотя сегодня его в воздухе 78%. Выходит, наша газовая оболочка по составу была близка к марсианской. Как ни странно, эти дела давно минувших дней актуальны для ответа на вопрос о будущем выживании человечества. Похоже, предсказание Стивена Хокинга о гибели всего живого из-за превращения Земли в Венеру не сбудется. Разбираемся, почему так и как одно связано с другим.

Вчера, 13:56
4 минуты
Илья Ведмеденко

Американские военные пришли к выводу, что новейший эсминец можно эксплуатировать в условиях больших волн. Безопасность корабля в значительной степени объясняется его конструкцией, обеспечивающей малозаметность.

Вчера, 13:05
3 минуты
Полина Гершберг

Ученые создали информационную панель, показывающую распространение китайского коронавируса по миру в режиме реального времени. Данные вносятся из подтвержденных источников — это поможет бороться с дезинформацией.

25 января
3 минуты
Денис Гордеев

Вирус, который уже унес жизни 41 человека, породил новую волну популярности игры 2012 года.

24 января
35 минут
Александр Березин

Новый коронавирус — «родственник» старой атипичной пневмонии — уже привел к смерти 26 человек. Считается, что им может быть заражено несколько тысяч. И точно известно, что эпидемия вышла за пределы Китая. Но это не повод впадать в панику. Мы собрали всю известную информацию и попробовали ответить на главные вопросы о новой болезни.

Позавчера, 14:48
26 минут
Александр Березин

Земная атмосфера 2,7 миллиарда лет назад состояла в основном из углекислого газа — и было его там до тысячи раз больше, чем сегодня. При этом азота почти не было, хотя сегодня его в воздухе 78%. Выходит, наша газовая оболочка по составу была близка к марсианской. Как ни странно, эти дела давно минувших дней актуальны для ответа на вопрос о будущем выживании человечества. Похоже, предсказание Стивена Хокинга о гибели всего живого из-за превращения Земли в Венеру не сбудется. Разбираемся, почему так и как одно связано с другим.

16 января
5 минут
Илья Ведмеденко

Исследователей в очередной раз удивили привычки кошек: как оказалось, они не прочь питаться одним человеческим трупом на протяжении месяца, несмотря на наличие других тел.

25 января
3 минуты
Денис Гордеев

Вирус, который уже унес жизни 41 человека, породил новую волну популярности игры 2012 года.

18 января
26 минут
Александр Березин

Многие считают зимнее купание «церковным обычаем». Однако на деле Церковь всегда выступала против него, считая нехристианским, и вредным для здоровья. При всей внешней разумности этой позиции, на самом деле, такие купания могут быть даже полезны — но не для всех. Выясняем, как именно и почему.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Лучшие материалы
Предстоящие мероприятия
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: