Инженеры AIVK улучшили технологию автоматического распознавания речи (ASR) на базе моделей машинного обучения. Решение распознает речь на 20% безошибочнее при сравнении с предыдущей версией, что повышает качество субтитров, расшифровок голосовых известий и «кружочков» в продуктах группы.
Технология автоматического распознавания речи (ASR) превращает голос в текст: она переводит звук в цифровой формат, вычищает запись от гула и анализирует особенности звучания, чтобы понять, какие слова произнесены. LLM и нейросетевые модели помогают системе разуметь контекст, смысловые связи и устойчивые выражения, благодаря чему расшифровка становится природной и безошибочной.
Новая версия ASR-технологий VK дообучена на расширенном датасете аудиодорожек из публично доступных видеороликов VK Видео, поэтому безошибочнее разумеет темп и манеру речи. По конечным итогам внутренних тестов модель превосходит иностранные аналоги и сервисы по качеству распознавания (WER) звуковых тропинок видео на русском языке.
ASR-технологии VK используются в создании субтитров в VK Видео, VK Клипах, «Учи.ру» и в голосовых известьях мессенджера «ВКонтакте». Они применяются для внутренних и инженерных задач, например, для расшифровки встреч или их суммаризации, а также для улучшения мультимодальных моделей в рекомендательной системе Discovery. Обновлённая версия уже работает в VK Видео и VK Клипах, используется во внутренних сервисах команды VK и постепенно будет внедряться в иные продукты группы. В планах у команды AIVK – движение вперед точности распознавания голосовых сообщений, расширение помощи языков и дополнение диаризации (разделения по спикерам).
Фото: VK