©2023, Naked Science. Все права защищены. Naked Science, сетевое издание. Свидетельство о регистрации СМИ Эл № ФС77-70708 от 15.08.2017. Редакция не несет ответственности за достоверность информации в рекламных объявлениях. При копировании материалов ссылка на сайт обязательна. Обработка персональных данных осуществляется в соответствии с ФЗ от 27.07.2006 N 152-ФЗ «О персональных данных».Отключить AMP-версию

Рубрика Технологии

Искусственный интеллект научили слушать несколько голосов одновременно

Система распознавания речи от Mitsubishi умеет слушать и понимать сразу нескольких человек, говорящих в один микрофон.

Устройства с голосовым интерфейсом работают, когда в зоне слышимости их микрофона говорит один человек; если примешивается речь второго, у систем распознавания возникают проблемы. В кембриджской лаборатории компании Mitsubishi нашли решение этой проблемы. Технологию, позволяющую распознавать речь от двух до пяти одновременно говорящих человек, представили на этой неделе на техношоу Combined Exhibition of Advanced Technologies в Токио.

Благодаря разновидности технологии машинного обучения, которая называется «глубокий кластеринг», система учится выделять характеристики голосов, отличающие говорящих друг от друга, и по ним различать речь одновременно говорящих людей. Систему обучали с помощью образцов речи 100 носителей английского языка, но представители Mitsubishi утверждают, что система справляется и с обработкой других языков, в том числе японского.

Если двое говорят в один и тот же микрофон, система разделяет их слова с 90% точностью. Показатель падает с увеличением числа спикеров: для троих он равен уже 80%. Во время испытаний система с приемлемой точностью распознавала речь до пяти одновременно говорящих человек. Ей также лучше, чем традиционным системам распознавания речи, удается распознавать голоса отдельных людей в шумных местах; сейчас специалисты компании работают над внедрением системы в шумные машины с голосовым интерфейсом — лифты и кондиционеры.

Авторы разработки говорят о двух потенциальных сферах применения технологии: первая — устройства с голосовым интерфейсом (компьютеры беспилотных автомобилей, персональных помощников), вторая — расшифровка аудиозаписей. Второй возможностью могут заинтересоваться спецслужбы, полиция и военные, считают в Mitsubishi.

Описание системы опубликовано в репозитории ArXive.org.