Ученые МТУСИ предложили новый подход к улучшению реидентификации объектов — процесса отслеживания одного и того же объекта на протяжении всего видеоряда.
В современном мире технологии компьютерного зрения играют ключевую роль в различных сферах жизни, от регулирования дорожного движения до обеспечения безопасности на улицах. Одна из важнейших задач в этой области — реидентификация объектов. Однако несмотря на кажущуюся простоту, процесс реидентификации требует использования сложных алгоритмов, сталкивающихся с такими вызовами, как большое количество параметров, долгое время обучения и низкая скорость исполнения.
Ученые МТУСИ предложили новый подход к улучшению реидентификации объектов. В своей работе они использовали современные инструменты, такие как среда Google Colab, язык программирования Python, а также пакеты Super Gradients для работы с моделью YOLO-NAS и Filterpy для реализации алгоритмов отслеживания. В исследовании основной акцент сделан на возможности отслеживания сразу нескольких движущихся целей, присутствующих в кадре. Используются алгоритмы отслеживания нескольких объектов SORT, то есть алгоритм сортировки и DeepSORT — алгоритм глубокой сортировки.
«Одним из базовых алгоритмов для отслеживания объектов является SORT. Он работает быстро, но в сложных условиях, таких как перекрытие объектов или их движение в обратном направлении, может давать сбои. Более совершенный алгоритм — DeepSORT — использует нейронные сети для более точного отслеживания, даже в условиях помех. Алгоритм SORT состоит из четырех основных компонентов: обнаружение, оценка, сопоставление данных, а также создание и удаление идентификаторов треков. Однако в сложных ситуациях, например, при перекрытии объектов или изменении направления их движения, SORT демонстрирует снижение точности», — отметил Тимур Дмитриевич Потапченко, к.т.н., доцент кафедры «Программная инженерия» МТУСИ.
Исследователи МТУСИ провели эксперимент, используя видеозапись с проезжающими автомобилями. Камера была немного смещена от центра, а фонарный столб перекрывал часть обзора, создавая дополнительные сложности. В ходе исследования выяснилось, что алгоритм SORT действительно дает сбои в таких условиях. Улучшая алгоритм сортировки глубокой сортировкой, в исследовании демонстрируется общее улучшение поведения процесса реидентификации движущихся объектов
«После загрузки видео и получения первоначального набора обнаружений с помощью продвинутой модели YOLO-NAS каждому объекту был присвоен уникальный идентификатор. Затем объекты отслеживались по всем кадрам видеопотока с использованием алгоритма DeepSORT. В результате все автомобили были успешно идентифицированы и отслежены, даже те, которые частично перекрывались», — подчеркнул Юрий Садыев, магистрант МТУСИ.
Однако в ходе исследования была замечена ошибочная классификация типов транспорта. Например, легковой автомобиль мог быть ошибочно распознан как грузовик. Ученые предлагают решить эту проблему за счет увеличения объема данных для обучения и количества эпох.
В реальных условиях оборудование не всегда может обрабатывать видео со стандартной частотой 30 кадров в секунду. Ученые провели эксперимент, пропуская 1, 2 и 3 кадра, чтобы понять, как это влияет на работу алгоритмов.
Результаты показали, что общая производительность процесса реидентификации сильно зависит от производительности детектора объектов. Алгоритм SORT изначально работает быстрее, достигая 50 кадров в секунду, но DeepSORT в сочетании с облегченной моделью и пропуском кадров не только увеличивает скорость, но и позволяет отслеживать объекты в сложных условиях.
Исследование подтвердило, что улучшенный алгоритм глубокой сортировки является мощным инструментом для задач отслеживания и реидентификации объектов, особенно в условиях, где объекты временно скрываются, перекрываются или находятся в толпе. При этом даже с учетом пропуска кадров алгоритм сохраняет высокую точность, что делает его применимым в реальных сценариях с ограниченными аппаратными ресурсами.
Работа ученых МТУСИ имеет большое практическое значение. Улучшенные алгоритмы реидентификации могут быть использованы в системах видеонаблюдения, автономных транспортных средствах, робототехнике и других областях, где важно точно отслеживать объекты в реальном времени.