GCP Speech to Text и Voice Activation Detection работают вместе - PullRequest
0 голосов
/ 26 марта 2020

Я чувствую, что довольно близок к тому, чтобы получить то, что хочу, но чего-то не хватает. Я хочу использовать движок Google Speech to Text, чтобы транслировать аудиоданные в реальном времени (в данном случае из файла wav, но это может быть stdin) и генерировать стенограммы, когда приложение обнаруживает тишину. Я начал с этим кодом , который отлично , но, поскольку он говорит, что он передает аудио, я получаю транскрипт обратно только после того, как он закончит отправку GCP всего аудио файла.

Мой план: использовать VAD , чтобы я мог обнаружить тишину или, по крайней мере, никакой голосовой активности. Мой VAD настроен на отправку сообщения при обнаружении молчания 0,5 с или 3 с. Когда 3s обнаружены, я хочу рассматривать все данные с момента последнего молчания как «фразу». Затем отправьте это в GCP и отправьте обратно транскрипт для этого.

До сих пор у меня получалось успешно обнаруживать молчание - то есть реализация VAD работает, и У меня есть Я получил STT для генерации транскрипта для всего аудиофайла, однако я пытаюсь разобрать данные до и после обнаружения молчания и заставить GCP сгенерировать стенограмму для этого бита. Я думаю, что в предложении я борюсь со своими буферами ....

Любая помощь очень ценится.

С другой стороны, я думаю, это подход из-за способа реализации GCP STT, однако это может быть не лучшим подходом, я думаю EOF закроет поток для STT, и в этом случае мне нужно будет создать новый, когда VAD снова обнаружит голос и вызовет это снова. Я решил сделать суть моего кода, так как он будет довольно большим здесь .

Спасибо

...