• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
17.05.2017
Редакция Naked Science
378

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000
©Wikipedia

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
6 часов назад
Сергей Васильев

Несмотря на тусклое Солнце, атмосфера Юпитера раскаляется до сотен градусов благодаря не стихающим полярным сияниям. Волны аномальной жары быстро уносят тепло дальше к экватору.

5 часов назад
Анатолий Глянцев

Солнце несравнимо ближе к нам, чем любая другая звезда. До него всего восемь световых минут, тогда как до Проксимы Центавра — четыре с лишним световых года. Казалось бы, уж о Солнце-то мы должны знать все и даже больше. Однако не тут-то было. Naked Science рассказывает о загадках, которые все еще таит дневное светило.

Сегодня, 03:25
Анна Новиковская

У бумажных ос, как и у некоторых других общественных насекомых, есть рабочие особи и царица, чья единственная задача — принесение потомства. Если удалить царицу из гнезда, одна из оставшихся ос займет освободившееся место, но почему же тогда в присутствии царицы осы не «бунтуют» и не пытаются занять ее место? Ответ оказался удивительно простым.

23 сентября
Алиса Гаджиева

Ученые обнаружили, что древняя медная промышленность Израильского царства была организована так, что в итоге в ее центре не осталось ни растений, ни самой промышленности.

23 сентября
Анна Новиковская

За последние 50 лет на Аляске образовалось несколько новых термокарстовых озер, чья поверхность пузырится, выделяя в атмосферу метан — мощный парниковый газ. Поскольку такие озера образовались в результате таяния вечной мерзлоты, в ближайшем будущем их может стать еще больше.

23 сентября
Александр Березин

В инфопространство «утекло» нечто очень похожее на документ стратегического исследовательского центра RAND, адресованный в том числе ЦРУ. Автор этого документа утверждает, что конфликт на Украине полезен для Штатов, поскольку позволяет им «раздеть» своих экономических конкурентов — Германию и Францию, — попутно перекачав капитал из еврозоны в США. Действительно ли Вашингтону выгодны крупные финансово-экономические потери еврозоны, связанные с российско-украинским конфликтом? И если это так, то что это значит для России?

16 сентября
Алиса Гаджиева

Геродот в своей «Истории» утверждал, что блоки для пирамиды Хеопса и соседних пирамид доставляли по воде. Но сегодня от Нила до пирамид слишком далеко. Исследование кернов, взятых в пойме реки, позволило понять, как именно решался сложнейший вопрос транспортировки такого строительного материала.

15 сентября
Никита Логинов

Светодиоды потребляют намного меньше энергии, чем традиционные газоразрядные лампы, что должно сократить парниковые выбросы. Но при этом светодиодное освещение угрожает здоровью жителей и разрушает местные экосистемы в городах и селах.

3 сентября
Алиса Гаджиева

В «Кратких сообщениях Института археологии» опубликована статья Михаила Казанского и Анны Мастыковой, в которой авторы обобщили все известное из самых разных источников (от позднеантичных авторов до материалов археологических раскопок) о народе акациры. В результате они не только узнали, где те жили во время Великого переселения народов, но и предположили, как это племя нашло общий язык с соседями.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: