Я использую микрофон, который записывает звук через браузер, преобразует его в файл и отправляет файл на сервер Java.Затем мой Java-сервер отправляет файл в облачную речь API и дает мне транскрипцию.Проблема в том, что транскрипция очень длинная (около 3,7 с в течение 2 с диалога).
Так что я бы хотел ускорить транскрипцию.Первое, что нужно сделать, - это поток данных (если я начинаю транскрипцию в начале записи. Проблема в том, что я не совсем понимаю API. Например, если я хочу транскрипировать свой аудиопоток из источника (браузер / микрофон) Мне нужно использовать какой-то JS API, но я не могу найти ничего, что можно использовать в браузере (мы не можем использовать такой узел, не так ли?).
Иначе мне нужнодля потоковой передачи моих данных из моего js в java (не знаю, как это сделать, не разбивая данные ...), а затем протолкнуть его через streamingRecognizeFile оттуда: https://github.com/GoogleCloudPlatform/java-docs-samples/blob/master/speech/cloud-client/src/main/java/com/example/speech/Recognize.java
Но он принимает файл каквход, так как я должен его использовать? Я не могу сказать системе, которую я закончил или нет записи ... Как он поймет, что это конец транскрипции?
Я хотел бы создать что-тов моем веб-браузере, как и в демоверсии Google: https://cloud.google.com/speech/
Я думаю, что есть некоторые фундаментальные вещи, которые я не понимаю, о том, как использовать потоковый API. Если кто-то может объяснитьнемного, как я должен обрабатывать это, это было бы здорово.
Спасибо.