Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Новый Завет поможет в спасении исчезающих языков
Международная группа лингвистов опубликовала параллельный корпус переводов Нового Завета, который может использоваться в обучении алгоритмов машинного перевода.
В настоящее время в мире существует порядка семи тысяч языков. Подавляющее большинство людей (95 процентов) говорит лишь на 100 из них, тогда как около половины используют только английский, русский, китайский, испанский и хинди. Носителями примерно трети живых языков выступают менее одной тысячи человек — в ближайшее столетие этим диалектам грозит исчезновение. Вместе с языками под угрозой находится соответствующее культурное наследие, в том числе специфические абстрактные понятия и идиомы. Предполагается, что алгоритмы машинного перевода могут помочь в их сохранении.
Однако для успешного освоения материала системам машинного обучения требуются большие объемы текстов, аннотированных на языке. Необходимое количество размеченных стимулов существует только для некоторых языков. Например, крупнейший сервис онлайн-перевода Google Translate рассчитан на работу всего с 90 языками. Поэтому ученые ищут способы, которые позволяют обучать алгоритмы на сравнительно малых объемах аннотированных текстов. В новой работе специалисты из Мюнхенского университета Людвига-Максимилиана и Калифорнийского университета в Беркли представили такую технологию.
На первом этапе авторы создали корпус из 1169 переводов Нового Завета — наиболее распространенного текста в мире. Несмотря на объем, незначительный для стандартных тренировок автоматических переводчиков, он обладает важным преимуществом: благодаря религиозному содержанию Новый Завет широко представлен в различных языковых системах. Учитывая, что почти ни один вариант перевода не позволяет оценить все уровни языков, ученые предположили, что они, тем не менее, могут обеспечить представление о базовых грамматических категориях. Сопоставлять образцы они предложили по лингвистическим функциям.
Описанный подход заключается в том, что лингвист самостоятельно определяет и отмечает в нескольких переводах потенциальные маркеры языка и ассоциирующиеся с ними понятия. Затем наиболее близкие соответствия в остальном тексте объединяются в кластеры путем автоматического анализа. Методика испытывалась на 100 случайно отобранных переводах Нового Завета: исследователи выделили маркеры разных форм времени. Несмотря на необходимость дальнейшего совершенствования, полученная карта позволяет выяснить, какие языки используют схожую грамматику при образовании времен.
К недостаткам техники ученые отнесли низкую чувствительность: так, она не рассчитана на различение словоформ. Потенциально, помимо обучения автоматических переводчиков, она в то же время может использоваться для изучения эволюции языков. Ранее лингвисты из Германии и Австралии выяснили, почему люди склонны ошибаться при идентификации иностранных языков на слух — это в том числе объясняется схожей лексикой (например, в случае латышского и эстонского языков). Эксперимент, проводившийся в игровой форме, также позволил выявить фонетическое и географическое родство некоторых языков.
Исследование опубликовано на сервере препринтов arXiv.org.
Во время недавних наблюдений карликовой планеты Квавар что-то неожиданно почти полностью закрыло ее собой. Астрономы уверены, что это не ее спутник Вейвот и не одно из двух известных колец этого маленького мира на краю Солнечной системы.
Периодически нейросети в своих ответах галлюцинируют, предлагая пользующимися их услугами людям выпить яд под видом лекарства и так далее. Новая научная работа показала, что эта проблема связана с самой природой нейросети. Хотя ее вероятность можно понизить, устранить полностью невозможно.
На юго-востоке Чехии археологи обнаружили не просто отдельные артефакты, а целый набор инструментов, который 30 тысяч лет назад носил с собой охотник-собиратель. Открытие дает представление о повседневной жизни этих людей, населявших территорию современной Центральной Европы.
Исследования самодержавия могут пролить свет на феномен, исконно свойственный российской государственности, а значит, переосмыслить исторический путь России и выработку новых направлений развития, к такому выводу пришел ученый ТюмГУ.
Во время недавних наблюдений карликовой планеты Квавар что-то неожиданно почти полностью закрыло ее собой. Астрономы уверены, что это не ее спутник Вейвот и не одно из двух известных колец этого маленького мира на краю Солнечной системы.
Самая большая планета в Солнечной системе, всегда поражавшая воображение своими колоссальными размерами, немного сдала позиции. Новые высокоточные измерения орбитального зонда NASA показали, что Юпитер не такой большой и круглый, как считали астрономы последние 40 лет.
Исследования самодержавия могут пролить свет на феномен, исконно свойственный российской государственности, а значит, переосмыслить исторический путь России и выработку новых направлений развития, к такому выводу пришел ученый ТюмГУ.
Третий известный межзвездный объект 3I/ATLAS летит примерно вдвое быстрее обоих своих предшественников. По расчетам, его вряд ли могло выбросить из родной планетной системы с подобной скоростью, и так разогнаться по пути он тоже не мог.
Все больше покупателей начинают отказываться от привычки делать покупки на маркетплейсах, а число новых продавцов на площадках практически не увеличилось. Аналитика показывает, что за первый квартал 2025 года — прирост селлеров составил всего 0,45% по сравнению с аналогичным периодом прошлого года. В то же время, маркетплейсы активно расширяют сеть пунктов выдачи, особенно в регионах, где физическое присутствие всех брендов невозможно. Ученые Пермского Политеха рассказали, почему люди стали реже совершать покупки на маркетплейсах.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Комментарии