Нейросеть научили артикуляции Барака Обамы
6 минут
Редакция
1

Нейросеть научили артикуляции Барака Обамы

Специалисты из Вашингтонского университета разработали компьютерный алгоритм, который позволяет адаптировать мимику изображенного человека к стороннему аудиоряду.

giphy_4
©Wikipedia

Синхронизация видео- и аудиодорожек важна во многих областях: политике, бизнесе и искусстве. Так, видеоконференции нередко сопровождаются задержкой сигнала, в результате чего речь изображенного человека не соответствует артикуляции. Искусственная адаптация фонем к микродвижениям, кроме того, актуальна для киноиндустрии: она могла бы упростить озвучивание персонажей. Ранее французские ученые представили алгоритм с обратной функцией — для воспроизведения голоса по положению губ. Системы, способные монтировать аудиоряд в видеоролик, также создаются, однако до сих пор при их разработке использовались только видео, записанные в лабораторных условиях.

 

Авторы новой статьи на этапе проектирования алгоритма задействовали записи естественной речи бывшего президента США Барака Обамы. На первом этапе они с помощью рекуррентной нейросети описали артикуляционную мимику политика на основе фонем из четырех его видеообращений к гражданам страны. Затем с помощью полученной модели ученые нарисовали трехмерную маску (с нейтральным выражением) экс-главы государства и обучили систему совмещать изображение с ней и произвольным аудиорядом. Для повышения реалистичности команда также учитывала характерные для бывшего президента движения головы и общую мимику. Тренировка искусственной нейросети продолжалась от 3 трех минут до 14 часов.

 

Алгоритм работы нейросети / ©Suwajanakorn S. et al., SIGGRAPH, 2017

 

Тесты показали, что точность наложения коррелирует с продолжительностью обучения. Так, максимального результата алгоритму удалось достичь после семи и более часов. Авторы отмечают, что последний использовал в качестве базовых единиц сравнительно простые комбинации из не более чем пяти фонем (пентафонов), поскольку вероятность встретить в разных видео более сложные одинаковые последовательности звуков чрезвычайно мала. Эффективность адаптации видеоряда исходя из комбинаций при этом составила от 4,9 процента для пентафонов до 82,9–99,9 процента для три- и дифонов соответственно. Для сравнения, среднее слово в английском языке содержит 3,9 фонемы.

 

В рамках демонстрации исследователи испытали технологию на четырех других видеозаписях, сделанных во время интервью Обамы актеру Стиву Харви, ток-шоу The View, журналу Harvard Law Review (в 1990 году), а также выступления пародиста. Нейросеть хорошо адаптировала аудиодорожки к видеообращениям. Дополнительно разработку сравнили с аналогичным сервисом Face2face, который весной 2016 года представили специалисты из Стэнфордского университета, Общества Макса Планка и Университета Эрлангена — Нюрнберга. По мнению ученых, новая система позволяет повысить реалистичность целевой записи. При этом, в отличие от Face2face, она может обучаться только по аудиоряду.

 

Статья опубликована на сайте Вашингтонского университета.

 

Ранее американский программист создал искусственную нейросеть для превращения мужских лиц на снимках в женские и наоборот.

 

Демонстрация работы нейросети / ©University of Washington

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Вчера, 10:59
39 минут
Александр Березин

На протяжении многих лет ученые пытались найти загадочные частицы темной материи – вимпы. Последние исследования показывают, что они вряд ли существуют. Однако неожиданные открытия 2016-2020 годов указывают: темная материя вполне может обойтись и без единой новой частицы. Только вот природа ее совсем не такая, как ожидалось. Более того: если все так, то наша Вселенная – циклическая. Такая Вселенная-феникс могла уже не раз пройти через сменяющие друг друга циклы расширения и сжатия. Попробуем разобраться, в чем тут дело.

Вчера, 20:12
5 минут
Илья Ведмеденко

Благодаря применению нового сверхпрочного сплава для лопаток двигателей ПД-14 удастся существенно повысить ресурс силовой установки и безопасность полетов МС-21.

7 часов назад
5 минут
Сергей Васильев

Белок, выделенный из крови «тренированных» мышей, запускает такое же улучшение когнитивных функций и без всяких физических нагрузок.

6 июля
5 минут
Мария Азарова

Ученые, работающие с крупнейшим в мире радиотелескопом, сообщили об обнаружении эмиссии нейтрального водорода, исходящей от объектов за пределами нашей Галактики.

5 июля
26 минут
Илья Ведмеденко

Новый БПЛА С-70 «Охотник» может стать главным российским проектом в сфере боевой авиации. Но сначала ему нужно подтвердить свою пользу.

7 июля
3 минуты
Сергей Васильев

Моделирование показало, что планеты класса мини-нептунов могут быть покрыты океаном воды в состоянии сверхкритического флюида — промежуточном между обычной жидкостью и газом.

6 июля
5 минут
Мария Азарова

Ученые, работающие с крупнейшим в мире радиотелескопом, сообщили об обнаружении эмиссии нейтрального водорода, исходящей от объектов за пределами нашей Галактики.

1 июля
5 минут
Мария Кривоченко

Один из детекторов Большого адронного коллайдера обнаружил новую частицу, состоящую из четырех очарованных кварков. Физики полагают, что это первый представитель неописанного класса частиц.

27 июня
8 минут
Sergei Sobol

Уроки астрономии вернулись в российские школы в 2018 году. За то время, пока эта наука была необязательным предметом, в ней произошло много событий, не все из которых нашли отражение в учебниках. Кроме того, в них и раньше не были упомянуты многие интересные факты.

[miniorange_social_login]

Комментарии

1 Комментарий

rexerect
14.07.2017
-
0
+
Очень круто! Поскорей бы увидеть это в компьютерных играх
Подтвердить?
Лучшие материалы
Предстоящие мероприятия
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: