Рубрика Технологии

Инженеры MIT научили нейросеть качественно разделять объекты на фотографии

Технология позволяет заменять фон, предметы или их части, не оставляя артефактов.

В рамках конференции SIGGRAPH 2018 студенты Массачусетского технологического института (MIT) и Швейцарской высшей технической школы Цюриха под руководством профессора Войцеха Матусика (Wojciech Matusik) показали алгоритм, способный выделять объекты изображения без ошибок и проводить между ними плавную границу. Новый метод они назвали Semantic Soft Segmentation.

 

В своей статье они ссылаются на несколько уже известных способов выделения объектов. Один из них — soft segmentation. Суть метода в том, что изображение разделяется на несколько сегментов, где каждый пиксель может принадлежать сразу нескольким сегментам. Авторы отмечают, что он полезен при изменении цветов, но не учитывает границы между объектами.

 

С другой стороны, метод, названный semantic segmentation, использует нейронную сеть для того, чтобы определять типы объектов и выделять их на фотографии. Разработчики не ставили цель создать систему, которая бы проводила разделение на основе классификации. Они объединили два перечисленных метода, но присвоили алгоритму способность выделять объекты, основываясь на границах между ними.

 

MITCSAIL

 

Система Semantic Soft Segmentation учитывает, что пиксели могут принадлежать одновременно двум объектам. Она присваивает каждому слой и анализирует уровень прозрачности в пограничных областях. Благодаря этому алгоритм может заменять не только фон, но и его части, не оставляя при этом визуальных шумов.

 

ACM Transactions on Graphics

 

Несмотря на очевидный прогресс, разработчики выделяют существующие ограничения. Главное из них — время обработки. Для анализа изображения с разрешением 640×480 требуется три-четыре минуты. В последующем они собираются уменьшить этот показатель.

 

В июне британская компания DeepMind разработала нейронную сеть под названием Generative Query Network, которая способна представлять трехмерное окружение по одному двухмерному снимку.