Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы даете согласие на обработку персональных данных и подтверждаете ознакомление с Политикой.
Новый Завет поможет в спасении исчезающих языков
Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.
В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди. Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.
Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.
На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.
Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.
К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.
Исследование опубликовано на сервере препринтов arXiv.org.
Долгое время считалось, что гигантские стрекозообразные, жившие 300 миллионов лет назад, стали такими из‑за высокого содержания кислорода. Тогда в атмосфере его было около 30% вместо сегодняшних 21%. Учёные полагали, что крупные насекомые задохнулись бы в нашей атмосфере. Но оказалось, что это не так.
Релиз довольно неожиданно перенес время образования протонов и нейтронов в более раннее прошлое Вселенной. К сожалению, из его текста осталось неясным научное обоснование таких фундаментальных изменений в космологии. Также он резко передвинул в прошлое и момент возникновения реликтового излучения.
Ученые, похоже, приблизились к разгадке происхождения пшеницы мягкой — той самой, из которой делают большую часть хлеба и другие мучные изделия. Согласно авторам нового исследования, она, предположительно, появилась 8000 лет назад на территории современной Грузии и Армении.
Релиз довольно неожиданно перенес время образования протонов и нейтронов в более раннее прошлое Вселенной. К сожалению, из его текста осталось неясным научное обоснование таких фундаментальных изменений в космологии. Также он резко передвинул в прошлое и момент возникновения реликтового излучения.
Поставщик элементов окололунной станции попытался сдать клиентам изделия, подвергшиеся коррозии еще до начала его монтажа. Об этом заявил новый глава NASA Джаред Айзекман. Защищая свою позицию, поставщик сообщил, что ранее он поставлял модули с коррозией для МКС, но они все равно до сих пор работают. NASA использует скандал для отказа от алогичного проекта Lunar Gateway, обитаемой космической станции на окололунной орбите.
Ученые, похоже, приблизились к разгадке происхождения пшеницы мягкой — той самой, из которой делают большую часть хлеба и другие мучные изделия. Согласно авторам нового исследования, она, предположительно, появилась 8000 лет назад на территории современной Грузии и Армении.
В последнее время пуски с российских северных космодромов осуществляют без предварительного уведомления, чего не было в прошлом. Вероятно, дело в недавно упомянутых главой «Роскосмоса» атаках на Плесецк во время пуска. Сегодняшний запуск обеспечил вывод на орбиту космических аппаратов военного назначения.
Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.
Окаменелые остатки рептилии возрастом 289 миллионов лет сохранили полное анатомическое устройство грудной клетки ранних покорителей суши. Благодаря нетронутым хрящам исследователи реконструировали механику первого полноценного реберного дыхания. Наличие в тканях оригинальных белков подтвердило, что сложные органические молекулы способны сохраняться в палеонтологической летописи почти на 100 миллионов лет дольше, чем считалось.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно

Последние комментарии