Колумнисты

Российские ученые научили искусственный интеллект анализировать эмоции участников онлайн-мероприятий

Исследователи НИУ ВШЭ предложили новый нейросетевой метод распознавания эмоций и вовлеченности людей. Алгоритмы строятся на основе анализа видеоизображений лиц и превосходят по точности известные аналоги. Разработанные модели подходят для малопроизводительного оборудования, в том числе для мобильных устройств. Результаты работы могут быть внедрены в системы теле-конференц-связи и онлайн-обучения для анализа вовлеченности и эмоций участников.

Итоги исследования опубликованы в IEEE Transactions on Affective Computing. Пандемия Covid-19 привела к активному развитию инструментов онлайн-видео-конференц-связи и систем электронного обучения (e-learning). Технологии искусственного интеллекта могут помочь преподавателям дистанционно контролировать вовлеченность участников мероприятия. Сейчас алгоритмы анализа поведения студентов и выявления вовлеченности в онлайн-среде изучают специалисты в области интеллектуального анализа данных для образования.

Среди инструментов анализа наибольшей популярностью пользуются автоматические методы, основанные на технологиях компьютерного зрения. В частности, считается, что на качество многих e-learning-систем большое влияние может оказать распознавание эмоций и вовлеченности участников на основе видеоаналитики.

В рамках проекта Центра искусственного интеллекта НИУ ВШЭ «Нейросетевые алгоритмы анализа динамики эмоционального состояния и вовлеченности учеников на основе данных видеонаблюдения» ученые разработали новый нейросетевой алгоритм распознавания эмоций и вовлеченности по видеоизображениям лиц.

Ученые научили нейронную сеть извлекать характерные признаки эмоций, основываясь на специальном «устойчивом» способе обучения нейронной сети и обработке только наиболее важных областей лица. Суть метода в том, что сначала осуществляется детектирование лиц и извлечение их характерных признаков с последующей группировкой лиц каждого участника.

Далее с помощью специально обученных эффективных нейросетевых моделей извлекаются эмоциональные признаки каждого выделенного лица, они агрегируются с помощью статистических функций и классифицируются. На заключительном этапе идет визуализация фрагментов видеоурока с наиболее ярко выраженными эмоциями и различными степенями вовлеченности каждого слушателя. В результате исследователям удалось создать новую модель, которая сразу для нескольких лиц на видео определяет эмоции каждого человека и степень его увлеченности.

«Для нескольких наборов данных мы показали, что предложенные алгоритмы превосходят по точности известные аналоги. При этом, в отличие от большинства известных технологий, разработанные модели могут участвовать в обработке видео в режиме реального времени даже на малопроизводительном оборудовании, в том числе на мобильных устройствах каждого участника онлайн-мероприятия», — комментирует руководитель проекта, профессор кафедры информационных систем и технологий НИУ ВШЭ в Нижнем Новгороде Андрей Савченко.

— Совместно с Ильей Макаровым из Научно-исследовательского института искусственного интеллекта (AIRI) мы создали достаточно простую в использовании компьютерную программу, позволяющую обработать видеозапись вебинара или онлайн-занятия и получить набор видеоклипов с наиболее характерными эмоциями каждого участника».

Результаты работы могут быть внедрены в системы теле-конференц-связи и онлайн-обучения для анализа вовлеченности и эмоций участников. Так, в ходе предварительного тестирования онлайн-курса по реакции слушателей можно понять, какие части лекции были наиболее интересны, а что оказалось трудным для понимания и нуждается в корректировке. В настоящий момент проводятся исследования по возможностям интеграции разработанных моделей в сервис видеоконференций Jazz by Sber. Планируется выполнить разметку видеоданных для повышения точности анализа поведения слушателей онлайн-мероприятий.