как ускорить облачную речь Google - PullRequest
0 голосов
/ 16 мая 2018

Я использую микрофон, который записывает звук через браузер, преобразует его в файл и отправляет файл на сервер Java.Затем мой Java-сервер отправляет файл в облачную речь API и дает мне транскрипцию.Проблема в том, что транскрипция очень длинная (около 3,7 с в течение 2 с диалога).

Так что я бы хотел ускорить транскрипцию.Первое, что нужно сделать, - это поток данных (если я начинаю транскрипцию в начале записи. Проблема в том, что я не совсем понимаю API. Например, если я хочу транскрипировать свой аудиопоток из источника (браузер / микрофон) Мне нужно использовать какой-то JS API, но я не могу найти ничего, что можно использовать в браузере (мы не можем использовать такой узел, не так ли?).

Иначе мне нужнодля потоковой передачи моих данных из моего js в java (не знаю, как это сделать, не разбивая данные ...), а затем протолкнуть его через streamingRecognizeFile оттуда: https://github.com/GoogleCloudPlatform/java-docs-samples/blob/master/speech/cloud-client/src/main/java/com/example/speech/Recognize.java

Но он принимает файл каквход, так как я должен его использовать? Я не могу сказать системе, которую я закончил или нет записи ... Как он поймет, что это конец транскрипции?

Я хотел бы создать что-тов моем веб-браузере, как и в демоверсии Google: https://cloud.google.com/speech/

Я думаю, что есть некоторые фундаментальные вещи, которые я не понимаю, о том, как использовать потоковый API. Если кто-то может объяснитьнемного, как я должен обрабатывать это, это было бы здорово.

Спасибо.

1 Ответ

0 голосов
/ 16 июля 2018

Google "Речевой текст обычно обрабатывает звук быстрее, чем в реальном времени, обрабатывая в среднем 30 секунд звука в среднем за 15 секунд" [1] .Вы можете использовать Google APIs Explorer, чтобы точно определить, сколько времени займет каждый ваш запрос [2] .

. Чтобы ускорить расшифровку, вы можете попытаться добавить метаданные распознавания в свой запрос [3] .Вы можете предоставить подсказки фраз, если вам известен контекст речи [4] .Или используйте расширенные модели для использования специального набора моделей машинного обучения [5] .Все эти предложения улучшат точность и могут повлиять на скорость записи.

При использовании потокового распознавания в конфигурации вы можете установить для параметра singleUtterance значение True.Это обнаружит, если пользователь приостановит разговор и прекратит распознавание.В противном случае запрос потоковой передачи будет продолжаться до тех пор, пока не будет достигнут предел содержимого, который составляет 1 минуту продолжительности аудио для запроса потоковой передачи [6] .

...