• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
17.05.2017
Редакция Naked Science
453

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000
©Wikipedia / Автор: Ольга Кузьмина

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Новый Завет поможет в спасении исчезающих языков – иллюстрация к материалу на Naked Science

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
Вчера, 09:17
Любовь

Примерно 41-42 тысячи лет назад на Земле произошел кратковременный сдвиг магнитных полюсов, который мог способствовать вымиранию неандертальцев, но не Homo sapiens — их выживание авторы нового исследования связали с появлением теплой одежды и добычей охры.

Вчера, 07:55
Игорь Байдов

В 2006 году исследователи из Великобритании объявили, что легендарный антикитерский механизм, древнегреческий «компьютер», мог быть всего лишь игрушкой для демонстрации астрономических явлений. Авторы нового исследования подтвердили это, построив математическую модель на основе данных своих коллег, которая показала, что шестерни устройства заклинивало при запуске. Но несмотря на полученные результаты, ученые пытаются спасти репутацию древнего чуда техники, обвинив предыдущую команду в ряде ошибок.

Позавчера, 14:59
Илья

Бонобо в два раза чаще отказывались участвовать в эксперименте, если получали менее ценную награду, чем сородич. Такая реакция не была связана с разочарованием в человеке — приматы показали врожденное неприятие несправедливости.

16 апреля
Андрей

Многие знают, как популярны сувениры из окаменелостей — зубы древних акул или полированные панцири аммонитов. Но чем реже встречаются такие артефакты, тем они ценнее, то есть на них можно много заработать. И это проблема для палеонтологов. Американский специалист по тираннозаврам оценил ущерб, который нанесла коммерческая добыча костей T. rex и подсчитал среднюю цену таких образцов. Оказалось, больше половины найденных тирексов находится в частных руках, а значит, для науки они недоступны или ненадежны.

Позавчера, 14:59
Илья

Бонобо в два раза чаще отказывались участвовать в эксперименте, если получали менее ценную награду, чем сородич. Такая реакция не была связана с разочарованием в человеке — приматы показали врожденное неприятие несправедливости.

Вчера, 09:17
Любовь

Примерно 41-42 тысячи лет назад на Земле произошел кратковременный сдвиг магнитных полюсов, который мог способствовать вымиранию неандертальцев, но не Homo sapiens — их выживание авторы нового исследования связали с появлением теплой одежды и добычей охры.

8 апреля
Березин Александр

До 13 тысяч лет назад в Северной Америке жил вид, который ученые до недавнего времени считали волком. Компания Colossal Biosciences объявила о возрождении этого вымершего вида, но биологические детали ставят ее заявление под серьезное сомнение.

2 апреля
Березин Александр

Известный американский отраслевой обозреватель Эрик Бергер взял интервью у экипажа космического корабля Boeing, из-за технических проблем которого два астронавта задержались на орбите на девять месяцев вместо одной недели. Детали, которые они озвучили, указывают на серьезные проблемы Starliner, о которых ранее умалчивали. Люди провели немало времени при глубоко нештатной температуре. При слегка другом сценарии миссии экипаж корабля мог погибнуть. Официальные заявления NASA и Boeing сразу после июньского полета к МКС, судя по интервью, были заведомо неправдивыми.

9 апреля
Unitsky String Technologies Inc.

Инженеры компании Unitsky String Technologies Inc. разработали несколько вариантов транспортно-инфраструктурных комплексов, способных значительно улучшить пассажирское сообщение в городах, расположенных по обеим берегам крупных водных артерий. Обычно такие мегаполисы сталкиваются с необходимостью строительства дорогих капитальных сооружений — шоссейных мостов, что не всегда подъемно для городского бюджета. Решение белорусских инженеров куда менее ресурсоемкое. Для примера возьмем Ростов-на-Дону, где есть запрос на устойчивое сообщение между левобережной частью города с историческим центром.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно