5 вопросов о хакатоне по машинному переводу

В начале февраля в МФТИ проходил хакатон DeepHack.Babel, организованный лабораторией нейронных систем и глубокого обучения. Участники обучали систему машинного перевода на непараллельных данных, то есть на примерах, для которых нет перевода на другой язык. Рассказываем, зачем это нужно.

12.1K

Выбор редакции

5 вопросов о хакатоне по машинному переводу

5 вопросов о хакатоне по машинному переводу

В начале февраля в МФТИ проходил хакатон DeepHack.Babel, организованный лабораторией нейронных систем и глубокого обучения. Целью участников было обучить систему машинного перевода на непараллельных данных, то есть на примерах, для которых нет перевода на другой язык. В терминах машинного обучения такой подход считается обучением без учителя, когда известны только описания множества объектов обучающей выборки и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами. Такой подход в области машинного перевода стал возможен благодаря использованию искусственных нейронных сетей и уже показывает неплохие результаты.



Зачем это надо?

 

Традиционный машинный перевод основан на статистическом методе. Для каждого слова или фразы исходного языка обозначается определенное количество вариантов перевода на целевой язык. Эти переводы выделяются из большого количества параллельных текстов, то есть текстов на двух языках, являющихся точными переводами друг друга, путем анализа частоты совместной встречаемости слов и выражений. Однако нужный объем параллельных данных есть далеко не всегда. Для большинства словосочетаний в языке мы не сможем собрать достаточный корпус, на котором будут видны статистические закономерности. Верно и обратное, если такой корпус будет собран, то работать с ним будет совершенно невозможно он превзойдет возможности современных компьютеров.

 

В чем суть решения?

 

В хакатоне принимало участие 10 команд, каждой из которых предстояло разработать наилучшее решение. Победителем стала команда Lost in Translation, которой удалось создать решение для перевода с английского на корейский (конечно, они этого не знали), показывающее качество 0.30 BLEU. BLEU это принятая в области машинного перевода мера качества, которая основана на соответствии слов и словосочетаний из известного хорошего перевода словам и словосочетаниям перевода, предлагаемого моделью. Результат, полученный на хакатоне, пока далек от систем машинного перевода, обученных на большом корпусе, но тем не менее уже гораздо лучше элементарного перевода по словам.

 

Где оно будет применено?

 

Технология, основанная на нейронных сетях, позволит расширить возможности машинного перевода, автоматизировать перевод с редких языков, для которых, как правило, нет большой выборки параллельных примеров. Кроме того, с помощью нейросетей можно улучшить современные модели машинного перевода и для пар языков с большим объемом данных, используя коллекции моноязычных текстов, которые доступны практически для любого языка. Такая технология может быть использована не только для перевода с одного языка на другой, но и, например, для изменения стилистики текста, например, текст, написанный женщиной, можно будет переформулировать в “мужской” текст, и наоборот.

 

Что дает участие в хакатоне?

 

Команда победителей в качестве приза получила путевку на ICML 2018 конференцию в области машинного обучения, которая наряду с NIPS является одним из крупнейших академических событий в этой области. Команды, занявшие призовые места, получили денежный приз в размере пятидесяти и ста тысяч рублей. Ну и все без исключения участники получили бесценный опыт, новые знания и радость общения с единомышленниками.

 

Что такое Deep.Hack?

 

Deep.Hack серия хакатонов, придуманная в Лаборатории нейронных сетей и искусственного интеллекта МФТИ. Хакатоны проводятся раз в год и длятся семь дней. Deep.Hack Babel стал уже пятым хакатоном лаборатории. В отличие от большинства хакатонов, в рамках Deep.Hack проходит научная школа, где с лекциями выступают ведущие мировые специалисты из Facebook AI Research, Google DeepMind, ETH Zurich, Intel Laboratories, Kaspersky Lab и др. Все лекции школы доступны на канале лаборатории в YouTube.

 

Naked Science Facebook VK Twitter
Физтех
89Статей
Московский физико-технический институт (МФТИ). Блог о последних научных открытиях ученых МФТИ и других российских вузов и исследовательских центров в различных областях науки, от астрофизики до генной инженерии.
12.1K

Комментарии
Аватар пользователя Пингвин Северный
5 ч
Ужас, сколько ошибок! Неужели некому исправить? И еще...
11 ч
Долбня Н. Планеты развивались не от ядра, а наоборот...
11 ч
Долбня Н. Рождение и развитие планет,как и их...

Колумнисты

Физтех
89Статей
Сколтех
33Статьи
Discovery Channel
26Статей
СО РАН
6Статей
Комментарии

Быстрый вход

или зарегистрируйтесь, чтобы отправлять комментарии
Вы сообщаете об ошибке в следующем тексте:
Нажмите Отправить ошибку