Преобразование речи в текст Google: недопустимая конфигурация распознавания: недопустимая частота дискретизации, герц - PullRequest
0 голосов
/ 09 мая 2020

Я пытаюсь преобразовать речь в текст, используя полный сервис REST. Я использую .wav файл (PCM 16 бит Mono 16000 HZ)

URL: https://speech.googleapis.com/v1p1beta1/speech: распознавать

JSON запрос:

{
    "config": {
        "enableAutomaticPunctuation": "true",
        "encoding": "LINEAR16",
        "languageCode": "en-US",
        "model": "default"
    },
    "audio": {
        "content": "QzpcU3BlZWNoVG9UZXh0XGVuZ2xpc2hcUENNXEVORy1DUk0tRE9XTlRJTUUud2F2"
    }
}

Ошибка:

"error": {
    "code": 400,
    "message": "Invalid recognition 'config': bad sample rate hertz.",
    "status": "INVALID_ARGUMENT"
}

Не могли бы вы помочь устранить эту ошибку?

1 Ответ

1 голос
/ 09 мая 2020

В запросе API необходимо указать sampleRateHertz, то есть частоту дискретизации отправленного вами аудио в Герцах.

В вашем случае это 16000, поэтому ваш запрос должен включать:

"config": {
    ...,
    "sampleRateHertz": 16000
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...