• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
17.05.2017, 13:34
Редакция Naked Science
457

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000
©Wikipedia / Автор: Ольга Кузьмина

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Новый Завет поможет в спасении исчезающих языков – иллюстрация к материалу на Naked Science

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
6 февраля, 10:11
Александр Березин

В 1980-х годах большую популярность приобрела борьба с озоновыми дырами. Из-за нее хладагенты из хлорфторгулеродов заменили на аналоги из гидрофторуглеродов. Теперь ученые выяснили, что эта замена — как и следующие за ней, уже в рамках борьбы с глобальным потеплением — ведет к накоплению в атмосфере довольно опасных «вечных химикатов».

6 февраля, 16:36
ФизТех

Ученые из МФТИ, НИУ ВШЭ и ОИВТ РАН показали, что жидкость может перейти в стеклообразное состояние под действием давления. Эта работа не только раскрывает механизм перехода, заполняя пробелы в фундаментальных вопросах физики, но и предлагает подход, с высокой точностью моделирующий поведение материалов в экстремальных условиях.

6 февраля, 15:36
СГМУ им. В.И. Разумовского

Врач аллерголог-иммунолог, заведующий кафедрой клинической иммунологии и аллергологии СГМУ имени В.И. Разумовского Инна Гамова подробно поделилась о симптомах и причинах возникновения холодовой аллергии. По ее словам, истинная форма болезни встречается крайне редко, однако воздействие низких температур способно вызвать повреждения кожи, особенно если она тонкая и сухая.

6 февраля, 10:11
Александр Березин

В 1980-х годах большую популярность приобрела борьба с озоновыми дырами. Из-за нее хладагенты из хлорфторгулеродов заменили на аналоги из гидрофторуглеродов. Теперь ученые выяснили, что эта замена — как и следующие за ней, уже в рамках борьбы с глобальным потеплением — ведет к накоплению в атмосфере довольно опасных «вечных химикатов».

5 февраля, 13:02
СГМУ им. В.И. Разумовского

Специалисты УКБ №1 имени С.Р. Миротворцева СГМУ имени В.И. Разумовского провели успешное эндоскопическое удаление крупного кровоточащего новообразования толстой кишки у ребенка без разреза, через просвет кишки.

2 февраля, 16:13
Губкинский университет

Ученые РГУ нефти и газа (НИУ) имени И. М. Губкина и Института проблем управления имени В.А. Трапезникова РАН (ИПУ РАН) создали технологию экспресс-анализа качества природного газа. Впервые для этих целей была разработана нейросеть, что позволило определить показатели качества пробы в режиме реального времени за несколько секунд вместо 20-40 минут традиционным способом — с помощью газовой хроматографии.

12 января, 15:39
Александр Березин

От рыб произошли все наземные позвоночные, включая нас, но как именно рыбы стали главным населением морей — до последнего времени оставалось неясным. Авторы новой научной работы попытались доказать, что причиной этого было вымирание, возможно, вызванное белыми ночами.

28 января, 10:50
Игорь Байдов

Международная команда палеонтологов описала новый вид динозавра размером с крупную современную птицу. Он носил на голове плотный костяной нарост, который эти животные, возможно, использовали для внутривидовых разборок. Находка показывает, что даже мелкие хищники мелового периода могли решать конфликты не только когтями и зубами, но и ударами головой.

26 января, 14:26
Александр Березин

Образцы грунта, взятые астронавтами полвека назад, вложили еще один важный кирпич в здание научной картины мира: гипотеза о том, что Земля исходно была сухой, не стыкуется с фактами. Похоже, идею о невозможности сохранения большого количества воды на «теплых» планетах придется пересмотреть.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно