• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
17.05.2017
Редакция Naked Science
421

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000
©Wikipedia

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
23 февраля
Полина

Исследование 67 тысяч людей и 11 миллионов ночей показало, что только 15% его участников спят от семи до девяти часов минимум пять дней в неделю. У остальных сон большую часть времени был либо недостаточным, либо избыточным, что одинаково приводит к проблемам со здоровьем.

Вчера, 21:31
Руслан Руслан

Компания Neuralink, при помощи которой предприниматель Илон Маск надеется совершить революцию в интерфейсах «мозг-компьютер» (BCI), впервые имплантировала человеку устройство «чтения мыслей». Об этом Маск сообщил в твите, опубликованном 29 января. Однако, некоторые обеспокоены отсутствием прозрачности вокруг имплантата, который должен дать возможность управлять устройствами посредством мысли. Реакции ученых и экспертов на это событие обобщает медиа-редакция Nature, а Naked Science приводит перевод этой статьи.

23 февраля
Полина

Многие родители стремятся отдать детей в двуязычную школу, чтобы те развивались лучше и быстрее. Однако такое образование способно даже навредить ребенку, показало исследование.

Позавчера, 15:03
Дарья Боголюбова

Огромное число экзопланет, формально лежащих в зоне обитаемости, на деле могут быть малопригодными для жизни, полагают авторы новой научной работы. Причем виноват в этом весьма неожиданный фактор переменного тока.

23 февраля
Полина

Многие родители стремятся отдать детей в двуязычную школу, чтобы те развивались лучше и быстрее. Однако такое образование способно даже навредить ребенку, показало исследование.

22 февраля
РНФ

Ученые показали, что экстремальный подъем уровня Каспийского моря на десятки метров, произошедший 18-13 тысяч лет назад и получивший название «Великая Хвалынская трансгрессия», мог быть вызван, вопреки существующим гипотезам, не таянием ледника, а естественными изменениями палеоклимата. Оказалось, что из-за холодного климата того периода обширные территории, с которых собирали воду впадающие в Каспий реки, были покрыты многолетней мерзлотой. В результате массы дождевых и талых вод почти не впитывались в мерзлые грунты и стекали в море, испарение с поверхности которого было небольшим. Все эти факторы привели к повышению уровня Каспия и увеличению площади моря более чем вдвое по сравнению с современным. Полученные данные помогут уточнить представления о масштабе колебаний уровня Каспийского моря при изменении климата.

20 февраля
Полина

В Российской академии наук завершили первый Большой словарь ударений, его издадут к концу года. Лингвисты собрали наиболее современные нормы произношения привычных слов и зафиксировали ударение для лексики, которая появилась в русском языке недавно.

1 февраля
Андрей

Канадские исследователи изучили состав пород, вышедших на поверхность при появлении первых континентов. По итогам анализа выяснилось, что новая земная кора возникла не в результате движения тектонических плит, а из-за процессов в океанических плато молодой Земли.

15 февраля
Дарья Губина

Титан — самый органически богатый спутник с глобальным океаном в Солнечной системе. И все же, сопоставив строение его поверхности с интенсивностью падения метеоритов, ученые пришли к выводу, что в океане спутника Сатурна вряд ли хватает элементов для жизни.

[miniorange_social_login]

Комментарии

Написать комментарий

Подтвердить?
Подтвердить?
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: