Колумнисты

Найден способ улучшить геопространственное моделирование

Методы геопространственного моделирования стали важным инструментом экологического мониторинга — с его помощью управляют рисками для окружающей среды и отслеживают угрозы стихийных бедствий. Все большее применение в геопространственных исследованиях находит машинное обучение. Исследователи публикуют множество статей, в которых сообщают об улучшении моделей, решении фундаментальных задач и новых подходах, в том числе в естественных науках. Однако часто такие публикации страдают от методологических ошибок в основном из-за ограничений, присущих машинному обучению. Группа ученых из Сколтеха и Института AIRI провела анализ научной литературы, выявив типичные проблемы и предлагаемые решения.

Результаты работы представлены в статье-обзоре, опубликованной в журнале Nature Communications.

«Мы определили, что среди ключевых трудностей — несбалансированность и неравномерность данных, пространственная автокорреляция, смещения в данных, ошибки прогнозов и сложности в оценке неопределенности моделей. Хотя эти проблемы известны, существующие подходы зачастую игнорируют их, ограничиваясь стандартными процедурами обучения и валидации моделей машинного обучения», — рассказала первый автор работы Диана Колдасбаева, аспирант Сколтеха по программе «Вычислительные системы и анализ данных в науке и технике».

«Для устранения этих ограничений требуется разработка методов, учитывающих уникальные особенности экологических данных и пространственно-временных процессов. В статье представлен единый подход к решению таких задач, включающий инструменты и техники для повышения точности моделей, а также рекомендации по улучшению оценки их качества. Мы надеемся, что наши результаты помогут в выборе направлений исследований ученым из разных стран», — поделился соавтор работы Алексей Зайцев, старший преподаватель Центра искусственного интеллекта Сколтеха.

Авторы также определили ключевые направления развития геопространственных исследований с учетом специфики экологических данных и представили собственную подборку передовых инструментов, ресурсов и проектов, которые используют возможности геопространственных технологий для решения экологических проблем. Исследователи разместили ее в открытом доступе на GitHub и приглашают коллег пользоваться источником и дополнять его.

«В исследовании мы определили новые наборы данных, модели и подходы для обеспечения качества работы, необходимого для внедрения в отрасли прикладных научных разработок и решения проблемы интерпретируемости прогнозов, основанных на данных. К примеру, крайне важно создавать хорошо организованные базы данных. Более качественные данные естественным образом приводят к уменьшению искажений, связанных с дисбалансом и автокорреляцией. Мы ожидаем появления самообучения для геопространственного картографирования в экологических исследованиях, аналогично тому, что мы уже видели в языковом моделировании и компьютерном зрении», — прокомментировал работу Евгений Бурнаев, директор Центра искусственного интеллекта в Сколтехе и руководитель научной группы «Обучаемый интеллект» в Институте AIRI.