Система двух конкурирующих искусственных нейронных сетей научилась генерировать почти секунду видео на основе всего одного статичного фотокадра.
«Любой робот, который действует в реальном мире, должен иметь хотя бы базовые способности предсказания будущего, – говорит Карл Вондрик (Carl Vondrick) из Массачусетского технологического института (MIT). – Например, если вы решили присесть, он должен придвинуть вам стул, а не убрать из-под вас». Эта задача и заставила Вондрика и его коллег заняться созданием и обучением системы, которая генерирует несколько следующих кадров по одной исходной фотографии.
ИИ был обучен на базе из примерно 2 млн видеороликов, выложенных в свободный доступ на сервисе Flickr. Авторы отмечают, что записи отбирались не отмеченные тэгами, которые могли бы дать ИИ подсказку. Реализован он на основе архитектуры конкурирующих сетей (Adversarial Networks): одна из входящих в его состав нейронных сетей генерирует варианты продолжения, а вторая – оценивает их правдоподобность. Обе тренируются друг против друга: первая – стараясь обмануть вторую, вторая – ища малейшие признаки обмана.
Пока что система работает лишь с картинками низкого разрешения и генерирует 32 кадра – меньше чем на секунду экранного времени. Зато они правильным образом развивают происходящее на первом исходном кадре: самолет летит по верной траектории, деревья колышутся на ветру и т.д. Вондрик признает, что многое их системе недоступно – прежде всего, ей не хватает знаний о реальном мире. С другой стороны, он замечает, что 2 млн видеороликов – это около двух лет непрерывного времени. Для двухлетнего ребенка их ИИ разбирается в происходящем не так уж и плохо.
По данным The New Scientist, разработчики планируют представить свою систему на конференции, которая пройдет в Испании в начале декабря.