• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
17.05.2017, 13:34
Редакция Naked Science
457

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000
©Wikipedia / Автор: Ольга Кузьмина

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Новый Завет поможет в спасении исчезающих языков – иллюстрация к материалу на Naked Science

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
22 февраля, 10:18
Игорь Байдов

Во время обследования почти 900 собак ученые выявили 12 пород, склонных к брахицефалическому обструктивному синдрому дыхательных путей, который может ухудшать сон и влиять на переносимость физических нагрузок. Авторы нового исследования выяснили, что список пород, предрасположенных к серьезным нарушениям дыхания, куда шире, чем считалось ранее.

23 февраля, 10:00
Evgenia Vavilova

Оказалось, что насекомые активно избегают влажных поверхностей.

22 февраля, 10:00
Evgenia Vavilova

На квантовом уровне атомы в молекулах не находятся на одном месте всегда. Ученые смогли отследить их сдвиг и показать, как динамически меняется пространственная конфигурация муравьиной кислоты.

21 февраля, 12:18
Игорь Байдов

Ученые проверили 100 популярных кормов для собак и кошек и во многих из них нашли ПФАС, так называемые «вечные химикаты», причем одни из самых высоких концентраций обнаружили в продуктах на основе рыбы. Во многих случаях их уровень превышает пороги безопасности для людей, установленные европейским регулятором.

23 февраля, 10:00
Evgenia Vavilova

Оказалось, что насекомые активно избегают влажных поверхностей.

22 февраля, 10:18
Игорь Байдов

Во время обследования почти 900 собак ученые выявили 12 пород, склонных к брахицефалическому обструктивному синдрому дыхательных путей, который может ухудшать сон и влиять на переносимость физических нагрузок. Авторы нового исследования выяснили, что список пород, предрасположенных к серьезным нарушениям дыхания, куда шире, чем считалось ранее.

12 февраля, 07:52
Адель Романова

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

28 января, 10:50
Игорь Байдов

Международная команда палеонтологов описала новый вид динозавра размером с крупную современную птицу. Он носил на голове плотный костяной нарост, который эти животные, возможно, использовали для внутривидовых разборок. Находка показывает, что даже мелкие хищники мелового периода могли решать конфликты не только когтями и зубами, но и ударами головой.

26 января, 14:26
Александр Березин

Образцы грунта, взятые астронавтами полвека назад, вложили еще один важный кирпич в здание научной картины мира: гипотеза о том, что Земля исходно была сухой, не стыкуется с фактами. Похоже, идею о невозможности сохранения большого количества воды на «теплых» планетах придется пересмотреть.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно