Рубрика Технологии

Искусственный интеллект научили слушать несколько голосов одновременно

Система распознавания речи от Mitsubishi умеет слушать и понимать сразу нескольких человек, говорящих в один микрофон.

Устройства с голосовым интерфейсом работают, когда в зоне слышимости их микрофона говорит один человек; если примешивается речь второго, у систем распознавания возникают проблемы. В кембриджской лаборатории компании Mitsubishi нашли решение этой проблемы. Технологию, позволяющую распознавать речь от двух до пяти одновременно говорящих человек, представили на этой неделе на техношоу Combined Exhibition of Advanced Technologies в Токио.

 

Благодаря разновидности технологии машинного обучения, которая называется «глубокий кластеринг», система учится выделять характеристики голосов, отличающие говорящих друг от друга, и по ним различать речь одновременно говорящих людей. Систему обучали с помощью образцов речи 100 носителей английского языка, но представители Mitsubishi утверждают, что система справляется и с обработкой других языков, в том числе японского.

 

Если двое говорят в один и тот же микрофон, система разделяет их слова с 90% точностью. Показатель падает с увеличением числа спикеров: для троих он равен уже 80%. Во время испытаний система с приемлемой точностью распознавала речь до пяти одновременно говорящих человек. Ей также лучше, чем традиционным системам распознавания речи, удается распознавать голоса отдельных людей в шумных местах; сейчас специалисты компании работают над внедрением системы в шумные машины с голосовым интерфейсом — лифты и кондиционеры.

 

Авторы разработки говорят о двух потенциальных сферах применения технологии: первая — устройства с голосовым интерфейсом (компьютеры беспилотных автомобилей, персональных помощников), вторая — расшифровка аудиозаписей. Второй возможностью могут заинтересоваться спецслужбы, полиция и военные, считают в Mitsubishi.

Описание системы опубликовано в репозитории ArXive.org.