скручивание "Неподдерживаемый тип носителя" в IBM Speech - PullRequest
0 голосов
/ 14 ноября 2018

В настоящее время я использую эту команду в терминале, чтобы попытаться преобразовать мой образец телефонного монофонического голоса wav с частотой дискретизации 16 бит / с при частоте 8 кГц в движок IBM Speech-to-Text.

curl -X POST \
-u "apikey goes here" \
--header "Content-Type: audio/wav", "model: en-US_NarrowbandModel" \
--data-binary @{path_url_goes_here)/OSR_us_000_0010_8k.wav \
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize"

Однако на выходе указано, что вход wav не поддерживается:

 curl: (3) Port number ended with ' '
{
   "code_description": "Unsupported Media Type", 
   "code": 415, 
   "error": "Unable to transcode from audio/wav, to one of: audio/x-float-array; rate=16000; channels=1, application/srgs, application/srgs+xml, application/jsgf, application/fsm, application/bnf"
}

Согласно Список поддерживаемых IBM форматов аудио , я изменил свою модель на "NarrowbandModel", чтобы разрешить минимальную входную частоту дискретизации 8 кГц, как указано.

Мой вопрос: Что-то не так с моим запросом или аудиофайлом?

Обновление: я попытался преобразовать .wav в формат MP3 с постоянной частотой дискретизации 8 и 48 кГц. Изменения «Content-Type: audio / mp3» также приводят к тому же выводу, что и упомянутый выше.

1 Ответ

0 голосов
/ 15 ноября 2018

Попробуйте передать модель = en-US_NarrowbandModel в качестве параметра в URL. Следующая команда curl работает для меня для вашего файла WAV.

curl -X POST \
-u "apikey:XXXXXXXXXXXXXXXXXXXXXXXXXXXXX" \
-H "Content-Type:audio/wav" \
--data-binary @OSR_us_000_0010_8k.wav \
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?model=en-US_NarrowbandModel"

{
 "results": [
  {
     "alternatives": [
        {
           "confidence": 0.985, 
           "transcript": "the birch canoes slid on the smooth planks "
        }
     ], 
     "final": true
  }, 
...