В Пермском Политехе нашли способ научить роботов говорить более эмоционально
Сегодня в области искусственного интеллекта достаточно актуальны вопросы распознавания эмоций и эмоционального изменения голоса. В частности, эти технологии можно использовать в робототехнике, человеко-машинном взаимодействии, для голосового обучения, а также для определения физического состояния водителей. Ученые из Пермского Политеха предложили способ, который позволит роботам «считывать» эмоции людей и воспроизводить их в собственной речи. С помощью изменения интонации и ритма ученые создали эмоциональный голос.
Результаты исследования они представили в журнале 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (ElConRus). Эмоции — это особый вид психических процессов, которые выражают то, что человек думает о своих отношениях с окружающей средой и самим собой. Способность испытывать их развивалась в процессе эволюции живых существ, помогая им более успешно адаптироваться к условиям жизни.
Несмотря на то, что люди выражают чувства по-разному, есть универсальные эмоции, которые понятны для представителей различных культур. Но одна из проблем распознавания эмоций и синтеза речи состоит в том, что нет их точной формализации: люди могут интерпретировать чувства других неоднозначно и нечетко.

«В последнее время появилось много способов распознавания эмоций, в том числе с помощью искусственных нейронных сетей. Но научить робота воспроизводить эмоциональную речь все еще достаточно сложно. Это многоэтапный процесс, который включает анализ человеческой речи и обнаружение эмоций во всех фразах, а затем синтез речи робота с необходимыми эмоциями.

Каждый из этих шагов отличается высокой степенью неопределенности. Чтобы научить робота человеческому тону, тембру и эмоциям, мы предложили использовать прямое обучение по аналогии», – рассказывает один из разработчиков, магистрант кафедры «Автоматика и телемеханика» электротехнического факультета Пермского Политеха Ян Якубчик.

Разработчики обнаружили эмоциональный интонационный паттерн в речи и воссоздали его по той же фразе, произнесенной другим голосом. Из-за различий в говорении и эмоциях разных людей существует разница в скорости и ритме речи. По словам ученых, необходимо найти повторяющиеся звуки во фразах и сопоставить их, чтобы верно изменить высоту тона и ритм речи робота. Чтобы найти оптимальное соответствие между временными рядами, представляющими звуки, они использовали технику динамического преобразования времени.

Для оценки работы метода ученые провели эксперимент. С помощью студентов Пермского института культуры они записали восемь голосовых форматов эмоций и первый голос в спокойном тоне. Далее были разработаны матмодели эмоций голоса с помощью двух методов: наименьших квадратов и кепстральных коэффициентов. Таким образом удалось синтезировать измененные голоса.

«Чтобы добавить эмоции к полученному голосу робота, мы использовали третий метод – прямое обучение. Неэмоциональная фраза корректируется с помощью матмодели эмоций. Метод позволяет изменять интонацию фразы, оставляя текст прежним», — поясняет научный руководитель разработчика, доцент кафедры автоматики и телемеханики Пермского Политеха, кандидат технических наук Юрий Липин.

Алгоритм позволил создать несколько фраз, которые звучали достаточно естественно. В дальнейших планах разработчиков – создание языковой модели для распознавания и воссоздания эмоций, так как изменение речи в зависимости от эмоций во многом зависит от языка.
В 2017 году человечество впервые заметило объект, прилетевший из другой звездной системы. Он оказался странным, почти не похожим ни на астероид, ни на комету, и получил имя Оумуамуа. Затем появился «нормальный» межзвездный странник — комета Борисова. А в 2025-м астрономы обнаружили 3I/ATLAS — объект, который, вероятно, хранит вещество времен рождения чужих миров. Но что изменили в астрономии эти три гостя из межзвездной тьмы?
Американские биотехнологи впервые сообщили об обращении вспять клеточного старения в живых клетках печени человека — не мышиных, не синтетических, а именно человеческих. На волне этого результата компания привлекла 435 миллионов долларов и готовится к клиническим испытаниям.
Роль личности в истории чаще всего иллюстрируют правителями или полководцами. Но, глядя на современную карту мира, нельзя не признать: она выглядела бы принципиально иначе, если бы не одна крестьянская девушка, которую сожгли в этот день ровно 595 лет назад.
В 2017 году человечество впервые заметило объект, прилетевший из другой звездной системы. Он оказался странным, почти не похожим ни на астероид, ни на комету, и получил имя Оумуамуа. Затем появился «нормальный» межзвездный странник — комета Борисова. А в 2025-м астрономы обнаружили 3I/ATLAS — объект, который, вероятно, хранит вещество времен рождения чужих миров. Но что изменили в астрономии эти три гостя из межзвездной тьмы?
Астрономы провели длительную радиодиагностику межзвездного объекта 3I/ATLAS и не нашли признаков искусственных технологий. Наблюдение окончательно подтвердило естественную природу ледяного тела, хотя ученые изначально не ожидали сенсации.
Роль личности в истории чаще всего иллюстрируют правителями или полководцами. Но, глядя на современную карту мира, нельзя не признать: она выглядела бы принципиально иначе, если бы не одна крестьянская девушка, которую сожгли в этот день ровно 595 лет назад.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно