Если мы посмотрим на последний пример, написанный в файле node.js на странице, на которую вы ссылались, мы увидим, что он использует модуль с именем "node-record-lpcm16", который не является частью GCP.Если мы читаем дальше, мы находим вызов функции record.start ().Целью этого является получение входного потока данных (предположительно, с микрофона).Насколько я понимаю, когда мы изучаем статью о транскрипции речи в текст, мы видим, что GCP не заботится о том, откуда исходит источник звука, и от вашего источника приложения зависит, откуда его взять.Образец иллюстрирует только одну возможную технику с использованием SoX, но есть и другие, такие как «арекорд» и, вероятно, больше.Я думаю, что нам нужно отделить понятие источника аудиовхода от возможностей GCP обработки потока аудиовхода.Поэтому я не верю, что для преобразования текста в GCP требуется SoX, а ваше приложение, которое получает аудиоданные, должно получить эти данные откуда-то, прежде чем передавать их в GCP, и SoX является одним из возможных вариантов.