Я ознакомился с документацией [1], и мне кажется, что вы используете интервал дискретизации, отличный от интервала дискретизации в формате по умолчанию.
В частности, как вы можете видеть, «Аудиокадры, закодированные Opus» в контейнере Ogg (OggOpus). sampleRateHertz должен быть 16000. "
Между тем вы указали" sampleRateHertz ": 48000.
Это может быть причиной ваших неожиданных результатов. Если частота дискретизации различна, возможно, вы неправильно определили сигнал. Я бы посоветовал вам повторно сэмплировать звук на входе до 16000 Гц или изменить формат кодирования и, возможно, выбрать FLA C (свободный код без потерь c), потому что - это рекомендуемое кодирование, потому что оно без потерь ( следовательно, признание не ставится под угрозу)
[1] https://cloud.google.com/dialogflow/docs/reference/rest/v2beta1/QueryInput#audioencoding