Рубрика Hi-Tech

Нейросеть «оживила» «Мону Лизу»

Алгоритм на основе всего восьми кадров способен превратить портрет в движущееся изображение.

Российские разработчики из «Сколково» и Samsung представили статью, препринт которой доступен на сайте arXiv.org, и продемонстрировали в ней алгоритм, способный превращать статичные портреты в короткие видео. При этом система может работать на основе небольшого количества кадров.

 

Исследователи в области искусственного интеллекта уже научили алгоритм переносить информацию с одного изображения на другое. Сложность этого процесса в том, что для него необходимо большое количество исходных данных. Сотрудники Университета Карнеги — Меллона, к примеру, перенесли речь телеведущего Джона Оливера на видеоклип с ведущим вечернего шоу Стивеном Колбертом. Сделать то же самое на основе 16, восьми или даже одного кадра до этого момента никому не удавалось. Авторы из «Сколково» смогли добиться этого при помощи алгоритма на основе сверточной нейросети. 

 

В него входит три нейросети — Embedder, Generator и Discriminator, — которые прошли метаобучение. То есть алгоритм обучен на основе массива кадров с лицами людей. На каждое лицо накладывается маска, учитывающая границы лица и мимику. Первая нейросеть хранит информацию в виде векторов. Вторая через набор сверточных слоев использует маску, чтобы наложить ее на изображение человека. Третья выступает в качестве рецензента, который оценивает реалистичность получившегося результата.

 

©Egor Zakharov

 

Эта система позволила разработчикам переносить информацию между двумя объектами, используя лишь один или два кадра. При этом чем больше кадров доступно алгоритму, тем более правдоподобным получается результат. Возможности системы авторы продемонстрировали на фотографиях Мэрилин Монро и Альберта Эйнштейна. Однако она работает не только на портретах знаменитостей, но и на картинах, написанных художниками. Эту способность продемонстрировали на примере «Моны Лизы» и «Девушки с жемчужной сережкой».

 

©Egor Zakharov

 

Сейчас на анимированных изображениях все еще присутствует множество артефактов, а на некоторых сразу заметна искусственность движений — устранением этих дефектов разработчики планируют заняться в дальнейшем.

 

Ранее представители Nvidia продемонстрировали искусственный интеллект, который за секунды обрабатывает схематичный набросок и превращает его в фотореалистичное изображение. Нейросеть назвали GauGAN.