Результаты исследования опубликованы в журнале Remote Sensing. Методы компьютерного зрения и машинного обучения уже давно используются при решении задач экологического мониторинга: с наиболее трудоемкими из них, которые к тому же подвержены человеческим ошибкам, алгоритмы справляются с большой легкостью. Однако проблема в том, что нейронную сеть сначала необходимо обучить, чтобы она могла, например, успешно различать породы деревьев в лесных массивах.
Существенное отличие спутниковых изображений от обычных фотографий, десятки которых можно ежеминутно делать на смартфон, заключается в том, что за один проход спутника можно получить не так много кадров, при этом не всегда с достаточным разрешением. Кроме того, на качество съемки влияет облачность. Получение достаточного количества хорошо размеченных изображений, пригодных для обучения нейронной сети, может оказаться крайне сложной задачей, для решения которой ученые и инженеры используют, в частности, методы аугментации изображений.
«Нейронная сеть – очень мощная система, требующая использования больших наборов обучающих данных для получения качественных результатов. К сожалению, при решении практических задач мы зачастую сталкиваемся с проблемой нехватки данных, поэтому специалистам по их обработке приходится применять различные методы, чтобы искусственно увеличивать исходные выборки. Одним из самых популярных методов является аугментация данных – преобразование изображений для повышения вариативности выборки», − рассказывает один из авторов статьи, аспирант Сколтеха Сергей Нестерук.
Профессор Сколтеха Иван Оселедец и его коллеги разработали метод аугментации данных MixChannel, который можно применять к мультиспектральным спутниковым изображениям. В его основе лежит принцип подстановки данных: на место полосы в исходном изображении подставляется полоса полученного в другое время изображения того же участка земной поверхности.
«Использование метода аугментации данных в случае с обычными изображениями RGB не представляет особой трудности, а вот эффективного средства аугментации сложных мультиспектральных данных до сих пор не было. MixChannel – принципиально новый метод аугментации, предназначенный именно для работы с мультиспектральными данными», − отмечает соавтор статьи, аспирант Сколтеха Светлана Илларионова.
Для проверки работы нового метода ученые использовали изображения бореальных хвойных и лиственничных лесов Архангельской области, полученные со спутника Sentinel-2. На них исследователи обучали сверточную нейронную сеть классифицировать данные типы лесов. «Прямой метод обучения классификационной модели на основе сверточной нейронной сети заключается в использовании набора спутниковых изображений заданной территории, полученных в течение активного вегетационного периода.
Для создания обучающего набора данных используется фрагмент, выбранный случайным образом из крупного изображения, – отмечают авторы. – Однако, если проверять полученную модель на изображении, полученном в день, который не вошел в обучающий набор, точность модели может резко снижаться».
Поскольку над территорией Архангельской области часто присутствует облачность, пригодных для использования спутниковых снимков оказалось очень мало – всего шесть, но даже при такой ограниченной выборке новый метод по результатам тестирования на трех нейронных сетях превзошел самые современные решения. Как подчеркивают авторы, разработанный ими метод можно применять в сочетании с другими методами аугментации, что позволит получать еще больше обучающих данных.
Новый метод целесообразно использовать и для решения других задач, связанных с применением данных дистанционного зондирования Земли, в частности, для экологических исследований, точного земледелия и любых других задач, где имеется ограниченное количество изображений со средним пространственным разрешением. В дальнейшем ученые планируют доработать свой метод, обеспечив возможность обработки изображений различных типов земного покрова и более обширных территорий с различными природными условиями.
В исследовании приняли участие ученые из Космического центра, Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных (CDISE) и Лаборатории цифрового сельского хозяйства (DAL) Сколтеха.