Новый Завет поможет в спасении исчезающих языков — Naked Science
6 минут
Редакция

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000
©Wikipedia

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Сегодня, 12:51
39 минут
Александр Березин

В июне 2020 года канадские астрономы рассчитали, что в Млечном Пути может быть пять миллиардов планет, похожих на Землю и вращающихся вокруг звезд, похожих на Солнце. Однако это лишь видимая часть айсберга обитаемых планет. Дело не только в том, что вокруг звезд других типов их больше: и сами условия на экзопланетах в других системах могут быть куда благоприятнее для жизни, чем у нас с вами. Попробуем понять почему.

Сегодня, 10:05
2 минуты
Sergei Sobol

Обращаете внимание, какой творческий подход проявляют дизайнеры при создании электрических мотоциклов? Каждый из них уникален своими особенностями, и наш сегодняшний фаворит – концептуальный электрический байк BMW Motorrad – не исключение. Он создан дизайнером из Валенсии Яго Валино (Iago Valino), вдохновившимся кастомными мотоциклами мастерской El Solitario. А эстетика байка навеяна культовыми мотоциклами Ural, в которые советские инженеры добавили собственный взгляд на традиции BMW.

14 мая
2 минуты
Илья Ведмеденко

Как следует из обнародованных материалов, дальность действия перспективной американской системы гиперзвукового оружия Long Range Hypersonic Weapon превышает 2775 километров.

Сегодня, 12:51
39 минут
Александр Березин

В июне 2020 года канадские астрономы рассчитали, что в Млечном Пути может быть пять миллиардов планет, похожих на Землю и вращающихся вокруг звезд, похожих на Солнце. Однако это лишь видимая часть айсберга обитаемых планет. Дело не только в том, что вокруг звезд других типов их больше: и сами условия на экзопланетах в других системах могут быть куда благоприятнее для жизни, чем у нас с вами. Попробуем понять почему.

Сегодня, 10:05
2 минуты
Sergei Sobol

Обращаете внимание, какой творческий подход проявляют дизайнеры при создании электрических мотоциклов? Каждый из них уникален своими особенностями, и наш сегодняшний фаворит – концептуальный электрический байк BMW Motorrad – не исключение. Он создан дизайнером из Валенсии Яго Валино (Iago Valino), вдохновившимся кастомными мотоциклами мастерской El Solitario. А эстетика байка навеяна культовыми мотоциклами Ural, в которые советские инженеры добавили собственный взгляд на традиции BMW.

14 мая
2 минуты
Илья Ведмеденко

Как следует из обнародованных материалов, дальность действия перспективной американской системы гиперзвукового оружия Long Range Hypersonic Weapon превышает 2775 километров.

23 апреля
11 минут
Василий Парфенов

Действующий глава NASA в рамках общения с прессой ответил на ряд вопросов, касающихся недавних заявлений российских политиков и главы «Роскосмоса» о скором отказе от собственного сегмента МКС. Администратор заверил всех, что агентство находится в хороших отношениях с Россией, а также поделился информацией о согласовании обмена местами для астронавтов и космонавтов в пилотируемых миссиях двух стран.

25 апреля
17 минут
Александр Березин

На этой неделе СМИ выдали новость, от которой можно впасть в шок: «Ранее из России уезжало около 14 тысяч исследователей [в год], теперь — 70 тысяч». Мы внимательно разобрались в ситуации и вынуждены отметить, что ничего подобного не было и нет. В реальности речь вовсе не об ученых и даже не о высококвалифицированных специалистах. Проблемы с учеными в России есть. Но в этом случае речь идет не о них, а о том, что отдельные бывшие комсомольские вожаки, удачно устроившиеся в РАН, перепутали утечку мозгов из России с отъездом из нее гастарбайтеров. Разбираемся, как это у них получилось.

24 апреля
9 минут
Мария Азарова

Американские ученые показали обратную связь всех конечных точек смертности с содержанием омега-3-полиненасыщенных жирных кислот. Согласно их выводам, более высокие уровни некоторых основных ПНЖК в тканях и крови могут снижать вероятность смерти от всех причин в среднем на 13% и в итоге замедлять процесс старения.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: