Хотите получать важные новости науки?
Подписаться
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
08.02.2024
Полина Меньшова
237

Человеческое восприятие помогло ИИ улучшить качество аудиозаписей

5.7

Нейросеть и человек воспринимают звук по-разному. Из-за этого алгоритмы для улучшения звука не всегда обрабатывают аудио желаемым образом. Ученые разработали новую модель глубокого обучения, которая опирается на человеческие оценки звуковой дорожки и способна улучшать аудиозаписи более эффективно.

Девушка слушает аудиозапись в наушниках
Девушка слушает музыку в наушниках / © pxhere.com / Автор: Андрей Чернов

Поведение искусственного интеллекта как правило стараются приблизить к человеческому, чтобы сделать помощником людей в разных сферах. Например, в Японии появился шагающий робот с настоящей мышечной тканью, а в Великобритании роботизированный датчик научили распознавать шрифт Брайля как человек, но в два раза быстрее.

Специалисты из Индианского университета в США разработали глубокую нейросеть, которая при редактуре аудиозаписи опирается на человеческое восприятие. Результаты их работы опубликовали в журнале IEEE/ACM Transactions on Audio, Speech and Language Processing. Новая модель ориентируется не только на объективные показатели качества звука, но и на субъективные оценки людей. Это позволяет учитывать случаи, когда формально четкая запись речи воспринимается как зашумленная, и понимать, какие приемлемые для нейросети сигналы относятся к нежелательным для человеческого уха.

Исследователи сообщили, что новую модель глубокого обучения успешно протестировали. Они сосредоточились на усилении речи, которая поступает из одного аудиоканала — микрофона. Для теста использовали два набора данных из предыдущих исследований — информацию о том, как люди по шкале от 1 до 100 оценили записи разговоров с фоновыми шумами, например звуком работающего телевизора или музыкой. Использовался метод совместного обучения: он предполагает не только языковой модуль для усиления речи, но и алгоритм, прогнозирующий среднюю человеческую оценку зашумленного сигнала.

Ученым удалось добиться высокого соответствия предсказаний модели относительно человеческого восприятия аудиозаписи реальным оценкам, которые звуковым дорожкам ставили люди. Это значит, что алгоритм при работе со звуком действительно способен учитывать не только объективные показатели.

Тем не менее, отметили исследователи, у работы с субъективными оценками есть сложности. Восприятие людей различается в зависимости от физиологических особенностей, личного опыта, а также наличия слухового аппарата или кохлеарного имплантата. Однако ученые продолжат совершенствовать созданную моделью, чтобы она могла работать с более сложными аудиозаписями и подстраиваться под постоянно меняющиеся ожидания людей.

Разработанную технологию, по мнению авторов статьи, можно будет применять в разных сферах. В частности, она поможет создать более комфортные для пользователей слуховые аппараты, программы распознавания речи, а также приложения для проверки громкоговорителей и систем громкой связи.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Журналист, преподаватель НИУ ВШЭ, главный редактор медиа о русском языке «Изборник». Специализируется на популяризации лингвистики, психологии, нейробиологии и медицины.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
Позавчера, 18:58
Игорь Байдов

За последние 30 лет размер трески, обитающей в Балтийском море, значительно уменьшился. Если раньше рыбаки вылавливали из воды особей размером с маленького ребенка, то теперь добытая рыба легко помещается в ладонях. Авторы нового исследования винят в этом человека, который заставил один из видов эволюционировать в «карликов».

Сегодня, 11:35
Игорь Байдов

Команда исследователей из Италии и США предложила два способа, с помощью которых гипотетический зонд сможет быстро добраться до одного из самых отдаленных и малоизученных объектов Солнечной системы. Речь о Седне — транснептуновом теле, которое находится за орбитой Плутона. По мнению инженеров, эти передовые технологии смогут доставить аппарат к Седне за семь и 10 лет.

7 часов назад
Людмила Соколова

Чтобы понять, как часто за пределами Солнечной системы встречаются миры, похожие на Землю, ученые из Калифорнийского университета (США) провели статистический анализ 517 экзопланет. Результаты показали, что всего три мира, включая наш, соответствуют критериям потенциальной обитаемости. Наиболее перспективными из них оказались Kepler-22b и Kepler-538b.

Позавчера, 18:58
Игорь Байдов

За последние 30 лет размер трески, обитающей в Балтийском море, значительно уменьшился. Если раньше рыбаки вылавливали из воды особей размером с маленького ребенка, то теперь добытая рыба легко помещается в ладонях. Авторы нового исследования винят в этом человека, который заставил один из видов эволюционировать в «карликов».

25 июня
ФизТех

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

Сегодня, 11:35
Игорь Байдов

Команда исследователей из Италии и США предложила два способа, с помощью которых гипотетический зонд сможет быстро добраться до одного из самых отдаленных и малоизученных объектов Солнечной системы. Речь о Седне — транснептуновом теле, которое находится за орбитой Плутона. По мнению инженеров, эти передовые технологии смогут доставить аппарат к Седне за семь и 10 лет.

17 июня
Адель Романова

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

25 июня
ФизТех

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

5 июня
Александр Березин

Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно