• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
17.05.2017, 13:34
Редакция Naked Science
457

Новый Завет поможет в спасении исчезающих языков

Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.

brms7_matthew2-3_1000
©Wikipedia / Автор: Ольга Кузьмина

В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди.  Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.

 

Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.

 

На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.

 

Новый Завет поможет в спасении исчезающих языков – иллюстрация к материалу на Naked Science

Кластеризация маркеров будущего времени на примере 100 языков / ©Ehsaneddin Asgari et al., arXiv.org, 2017

 

Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.

 

К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.

 

Исследование опубликовано на сервере препринтов arXiv.org.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
21 марта, 19:13
Игорь Байдов

Арахнологи описали новый вид пауков, который копирует облик мертвой особи, пораженной паразитическим грибом, чтобы хищники меньше обращали на него внимание. В природе такой гриб заражает хозяина и воздействует на его нервную систему, после чего заставляет подниматься на возвышенность, откуда легче распространять споры. Открытие расширит представления ученых о мимикрии у животных.

23 марта, 13:08
ФизТех

Ученые из Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ и Института биоорганической химии им. М. М. Шемякина и Ю. А. Овчинникова РАН с коллегами представили метод получения и очистки трансмембранного домена шиповидного белка коронавируса SARS-CoV-2 (SARStm) дикого типа. Этот «якорь» не только удерживает шип, которым вирус «атакует» клетки, в его оболочке, но и участвует в процессе слияния вирусной и клеточной оболочек. В новом протоколе используется бесклеточная экспрессия — синтез белка в очищенном бактериальном экстракте, что позволяет получать его в течение нескольких часов вместо дней и значительно упрощает очистку. Метод открывает возможность для детального изучения структуры белка с помощью спектроскопии ядерного магнитного резонанса (ЯМР).

22 марта, 16:55
Evgenia Vavilova

Нанопластика становится все больше в диете среднего человека, но ученые ищут способы не дать ему переместиться из еды в организм навсегда. Оказалось, что источником защиты может стать квашеная капуста.

19 марта, 10:58
Игорь Байдов

В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.

21 марта, 19:13
Игорь Байдов

Арахнологи описали новый вид пауков, который копирует облик мертвой особи, пораженной паразитическим грибом, чтобы хищники меньше обращали на него внимание. В природе такой гриб заражает хозяина и воздействует на его нервную систему, после чего заставляет подниматься на возвышенность, откуда легче распространять споры. Открытие расширит представления ученых о мимикрии у животных.

20 марта, 14:49
МАИ

20 марта Московскому авиационному институту исполняется 96 лет. За эти годы университет прошел большой путь становления, и во многом его развитие определяли люди, посвятившие себя науке и подготовке инженерных кадров. Один из таких — выдающийся ученый, заслуженный работник высшей школы Российской Федерации, доктор технических наук, профессор Борис Семенович Зечихин. Более 70 лет его жизнь неразрывно связана с кафедрой 310 «Электроэнергетические, электромеханические и биотехнические системы» и НИО-310 МАИ. Научная и педагогическая работа Бориса Семеновича получила широкое признание в России и за рубежом, а его вклад в развитие электромеханических специальностей и подготовку инженерных кадров оказал существенное влияние на отечественную авиационную и электротехническую промышленность.  Сегодня Борис Семенович продолжает свою работу, участвует в проектах по созданию электрических и гибридных силовых установок, передает опыт и знания молодым специалистам в рамках развития Передовой инженерной школы и всего МАИ в целом.

19 марта, 10:58
Игорь Байдов

В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.

19 марта, 12:41
Игорь Байдов

Марсоход «Персеверанс» обнаружил в камнях на кромке кратера Езеро спектральные признаки минерала корунда, из которого на Земле образуются рубины и сапфиры. Такие спектры на Красной планете зарегистрировали впервые. Теперь ученые пытаются понять, при каких процессах он мог там сформироваться, ведь условия на Марсе заметно отличаются от тех, в которых корунд обычно образуется на Земле.

18 марта, 10:35
Илья Гриднев

За 10 лет лежания в почве сигаретные фильтры не растворились, а лишь замаскировались под грязь. Их пластиковые волокна распались на микрочастицы, намертво склеились с минералами и превратились во вторичный микропластик. Более того, на пятом году гниения мусор начал отравлять землю с новой силой.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно