Google облако потоковой передачи речи в текст? - PullRequest
0 голосов
/ 08 октября 2018

Я хочу интегрировать речь в текст в электронном настольном приложении с потоковой передачей в реальном времени без создания файла .mp3 локально или, можно сказать, прямой поток с микрофона на речь Google Cloud.

Я нашел статью на облачном веб-сайте Google, которая здесь. (в последнем, где говорится, что SoX должен быть установлен).

У него довольно запутанное требование , чтоSoX должен быть установлен на машине.

Но когда я заверну свое электронное приложение и раздам ​​его миру, то не обязательно, чтобы все установили SoX.Итак, как я могу интегрировать его или я могу установить SoX на всех ПК, когда они собираются установить мое приложение, потому что, как указано в документации, SoX необходимЕсть ли способ обойти это?

1 Ответ

0 голосов
/ 08 октября 2018

Если мы посмотрим на последний пример, написанный в файле node.js на странице, на которую вы ссылались, мы увидим, что он использует модуль с именем "node-record-lpcm16", который не является частью GCP.Если мы читаем дальше, мы находим вызов функции record.start ().Целью этого является получение входного потока данных (предположительно, с микрофона).Насколько я понимаю, когда мы изучаем статью о транскрипции речи в текст, мы видим, что GCP не заботится о том, откуда исходит источник звука, и от вашего источника приложения зависит, откуда его взять.Образец иллюстрирует только одну возможную технику с использованием SoX, но есть и другие, такие как «арекорд» и, вероятно, больше.Я думаю, что нам нужно отделить понятие источника аудиовхода от возможностей GCP обработки потока аудиовхода.Поэтому я не верю, что для преобразования текста в GCP требуется SoX, а ваше приложение, которое получает аудиоданные, должно получить эти данные откуда-то, прежде чем передавать их в GCP, и SoX является одним из возможных вариантов.

...