Российские ученые приблизили робота к автономной работе

КАИ

5 месяцев назад

Проект «Интеллектуальные роботизированные системы на базе компьютерного зрения и машинного обучения» реализован в казанском вузе в рамках программы «Приоритет-2030» национального проекта «Наука и Университеты».

Исследователи из Казани создали проект для 6-осевого коллаборативного робота: в виртуальной среде его учат «хватать» неизвестные объекты неопределенной формы, а затем в реальности он выполняет задание без серьезных сбоев. Надо сказать, что действие роботизированных систем в неоднородной среде или в контакте с людьми выходят за рамки привычного программирования, ведь традиционные алгоритмы управления не обладают необходимой гибкостью.

Задача — «натаскать» робота самостоятельно ориентироваться и формировать стратегию управления без жесткого программирования. Здесь, совсем как у ребенка, постигающего мир, проводником выступил бы эмпирический опыт. Этот метод формирования поведения робота называется «обучение с подкреплением» (RL, Reinforcement Learning). Робот действует как игрок в видеоигре: пробует варианты, учится на ошибках и сам находит лучшие ходы. Но тогда придется проводить миллионы тренировочных эпизодов, что нереально и с точки зрения потраченного времени, и с точки зрения сохранности используемого оборудования. Поэтому на практике применяется известная парадигма Sim2Real, при которой обучение проводится в виртуальной среде и затем передается реальному роботу. Такой подход снижает стоимость экспериментов, ускоряет обучение и позволяет изменять параметры среды, чего трудно достичь в реальных условиях.

Дополнительный вызов — интеграция RL с компьютерным зрением в единой архитектуре: обучение на «сырых» изображениях усложняет интерпретацию ошибок. Поэтому предпочтительны модульные системы, где модуль восприятия выдает структурированные данные (например, 6D-позу объекта), а RL-модуль фокусируется на стратегиях движения. Это ускоряет конвергенцию и повышает надежность Sim2Real, но несет риски: ошибки восприятия передаются контроллеру, а в реальности возникают сдвиги в данных датчиков и контактах. Для их устранения используют адаптацию к предметной области и дообучение на реальных данных.

«Ключевой проблемой в обучении на основе симуляций считается так называемый «Sim2Real разрыв», который возникает из-за несоответствий в динамике, освещении, сенсорном шуме у физической среды и ее виртуального «двойника», — поясняет руководитель проекта, доцент кафедры автоматики и управления КНИТУ-КАИ Полина Лазарева. — Были предложены различные методы для устранения этого разрыва. Наиболее распространенным является рандомизация предметной области, которая вносит случайные возмущения в параметры моделирования. Такие характеристики, как длина, масса, центр тяжести, коэффициенты трения и шум датчика подлежат рандомизации, что вынуждает оператора разрабатывать надежную политику, способную работать в изменяющихся условиях».

Необходимо отметить, что несмотря на заметный прогресс в сокращении разрыва в Sim2Real, большинство найденных разработчиками по всему миру решений по-прежнему требуют значительных вычислительных ресурсов и тщательной настройки.

Сочетание компьютерного зрения и методов обучения с подкреплением в рамках единой архитектуры управления — перспективное направление исследований, уверены разработчики из КНИТУ-КАИ.

По задумке казанских ученых, политика формируется с помощью RL и curriculum learning в среде Unity ML-Agents, а затем переносится в реальную систему без значительного разрыва. «Мы разработали систему, которая объединяет компьютерное зрение и обучение с подкреплением, чтобы роботы могли обучаться действиям в симуляции и выполнять их в реальности, — уточняет Полина Лазарева. — Это решение устраняет разрыв между моделированием и промышленным применением, делая роботов по-настоящему адаптивными и автономными».

В итоге решение включает модуль распознавания и определения 6D-позы объектов (координаты + ориентация в пространстве), цифровую модель робота и среды в Unity, где агент обучается захвату и манипуляции объектами, а также перенос обученного поведения в реального робота (Sim2Real), обеспечивающий адаптивность к реальным условиям. Таким образом робот сможет подстраиваться под новые задачи без ручного перепрограммирования.

Российские ученые приблизили робота к автономной работе / © Пресс-служба КНИТУ-КАИ

Инновационность предлагаемого учеными КНИТУ-КАИ решения заключается в использовании единой цепочки «компьютерное зрение → симуляция → обучение с подкреплением → перенос в реальный мир для автономного захвата объектов».

По словам разработчиков, по сравнению с традиционными методами настройки в 2-3 раза сокращаются затраты времени и средств на внедрение коллаборативных роботов.

Ожидаемый результат — быстрая, надежная стратегия управления с минимальной донастройкой на реальном роботе, открывающая путь к коллаборативным приложениям.