Nvidia показала нейросеть, превращающую простые скетчи в фотореалистичные изображения

Редакция Naked Science

7 лет назад

С 18 по 21 марта в Калифорнии проходит конференция GTC 2019, организованная компанией Nvidia. На ней представители американского производителя графических процессоров продемонстрировали искусственный интеллект, который за секунды обрабатывает схематичный набросок и превращает его в фотореалистичное изображение.

Нейросеть носит название GauGAN, которое она получила в честь живописца Поля Гогена, чьи работы относят к направлению постимпрессионизма. Она представляет собой генеративно-состязательную сеть (GAN). В нее входит две сети, которые называют генератором и дискриминатором. Генератор создает изображение, а дискриминатор, обученный на реальных фотографиях, подсказывает, как его необходимо исправить.

Интерфейс приложения состоит из трех инструментов: кисти, карандаша и заливки. Помимо них, доступны различные текстуры — от неба до камней и деревьев. Достаточно выбрать нужную текстуру, задать форму, залить, и нейросеть сама создаст на ее месте реалистичный объект.

©NVIDIA

Для тренировки искусственного интеллекта (ИИ) использовали один миллион фотографий, большую часть которых взяли с портала Flickr. Вице-президент по прикладным исследованиям в области ИИ Брайан Катандзаро (Bryan Catanzaro) заверил, что они соблюдали авторское право.

Создатели отмечают, что нейросеть способна менять время суток и времена года. К примеру, если указать зиму, то изменится не только ландшафт, который теперь покроется снегом, но и небо — оно станет облачным и серым. То же касается и деревьев, которые скинут листья. При этом GauGAN понимает, когда объекты стоят перед водной гладью, и отражает их там. Алгоритм мультимодальный: даже по двум одинаковым эскизам он создаст два отличающихся изображения.

Во время демонстрации программа производила все процессы за секунды в режиме реального времени. Брайан Катандзаро сказал, что такие результаты получились благодаря графическому процессору Titan. Однако, по его словам, с некоторыми доработками алгоритм сможет работать практически на любой платформе, но процесс преобразования займет больше времени.

Пока GauGAN работает только с объектами природы, но авторы не исключают возможности натренировать алгоритм на отображение зданий, дорог, людей и других элементов реальности. По мнению Катандзаро, этот инструмент пригодится ландшафтным дизайнерам, архитекторам и всем тем, кто связан с созданием виртуальных миров. Он надеется, что демоверсия скоро появится на сайте Nvidia — AI Playground, который компания также представила на GTC 2019.

Вы можете пройти наш тест, который проверит, способны ли вы определить, где сгенерированный портрет, а где — фотография реального человека.