Исследователи «Яндекса» описали нейросетевую технологию, которая позволяет опознавать голосовые команды даже в перспективе гула.
Технология применяется в разумных колонках и ТВ Станциях «Яндекса». Благодаря ей устройства с «Алисой» улавливают команды в перспективе самых различных шумов: звуков музыки, льющейся воды, гулянки или стройки за окном. Например, пользователю не нужно выключать пылесос или перекрикивать песню, чтобы быть услышанным.
Обычно в разумных устройствах и ассистентах используют алгоритмы эхоподавления, которые помогают распознать голос в перспективе музыки. Уменьшить иные фоновые звуки помогают алгоритмы шумоподавления, но они ухудшают и человеческую речь. Для решения этой проблемы «Яндекс» разработал нейросетевой attention-механизм, который получает на вход сразу два сигнала - с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть избирает наиболее чёткий сигнал, что и позволяет опознавать команды в перспективе самых различных звуков.
«До сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который бы был равно надёжен в лабораторных тестах и в реальных условиях. Многие компании и исследователи сталкиваются с похожими проблемами, а не имеют доступа к промышленным решениям и принуждены расходовать ресурсы на их разработку с нуля. Полагаемся, что публикация нашего метода ускорит прогресс в части голосовых интерфейсов, поможет избежать типичных ошибок и приведёт к появлению большего количества комфортабельных и надёжных голосовых устройств», - говорил Дмитрий Солодуха, руководитель направления голосовой активации «Яндекса».
Фото: «Яндекс»