Распознавание потоковой передачи Google Speech - PullRequest
0 голосов
/ 17 сентября 2018

Какое самое быстрое ожидаемое время ответа API Google Speech для потоковой передачи аудиоданных? Я отправляю аудиопоток в API и получаю промежуточные результаты с задержкой в ​​2000 мс, которая, как я надеялся, может упасть ниже 1000 мс. Я протестировал разные частоты дискретизации и разные модели голоса.

Ответы [ 3 ]

0 голосов
/ 17 сентября 2018

Боюсь, что время отклика не может быть измерено или гарантировано из-за характера услуги. Мы не знаем, что делается под капотом, на самом деле не существует SLA для времени отклика, хотя существует SLA для доступности .

Что-то, что может помочь вам, работает над созданием хорошего запроса:

  1. Например, уменьшение размера кадра в 100 миллисекунд может обеспечить хороший компромисс между задержкой и эффективностью.
  2. Следуя Наилучшим практикам , вы сможете сделать чистый запрос, чтобы уменьшить задержку.

Вы можете проверить следующие ссылки в конкретных случаях использования, чтобы узнать, как они решали проблемы с задержкой:

0 голосов
/ 08 мая 2019

Google Cloud Speech работает довольно быстро, вы можете проверить, насколько быстро транскрибируется ваш микрофон https://cloud.google.com/speech-to-text/.

Возможно, вы столкнулись с проблемой буферизации на вашей стороне, инструмент, который вы используете, может буферизовать данные перед отправкой (очистка буфера) на основное устройство (поток).

Вы можете узнать, как уменьшить выходной буфер этого инструмента до более низких значений, например. 2 КБ, поэтому данные быстрее попадут в приложение Node и сервис Google. Google рекомендует отправлять данные размером буфера 100 мс.

0 голосов
/ 17 сентября 2018

Если вы действительно заботитесь о времени отклика, вам лучше использовать службу на основе Kaldi в вашей собственной инфраструктуре.Что-то вроде https://github.com/alumae/kaldi-gstreamer-server вместе с https://github.com/Kaljurand/dictate.js

...