Могу ли я указать модель (например, «видео») в API Google Cloud Speech-to-Text при использовании инструмента gcloud? - PullRequest
2 голосов
/ 20 мая 2019

Служба Google для преобразования речи в текст имеет несколько возможных моделей для преобразования речи в текст (стандарт, видео, телефонный звонок и т. Д.).Google предоставляет документацию здесь об использовании этих моделей при отправке запросов в их текстовые API из Python или через curl.Но я использую gcloud ml speech recognize, чтобы делать запросы к этому API, и хочу иметь возможность указать модель для использования.Я прочитал страницы и страницы документации, чтобы понять это, но пока не повезло.

Мой сценарий командной строки:

gcloud ml speech recognize test.wav --language-code=EN --useEnhanced=true

Я также пробовал --model=video вместо--useEnhanced=true.

Ответ Google:

ERROR: (gcloud.ml.speech.recognize) unrecognized arguments: --useEnhanced=true

To search the help text of gcloud commands, run:
  gcloud help -- SEARCH_TERMS

Пожалуйста, помогите!Спасибо:)

Ответы [ 2 ]

0 голосов
/ 27 мая 2019

Мне не удалось заставить его работать с инструментом gcloud, но я смог сделать это "вручную" с помощью cURL. Следуйте документации здесь: https://cloud.google.com/speech-to-text/docs/quickstart-protocol. Убедитесь, что создали учетную запись службы с соответствующей ролью, загрузите полученный закрытый ключ и запустите export GOOGLE_APPLICATION_CREDENTIALS=path-to-credentials.json. Затем создайте файл JSON с вашим запросом. Моя выглядела так:

{
    "config": {
        "languageCode": "en-US",
        "useEnhanced": true,
        "model": "video"
    },
    "audio": {
        "uri": "gs://bucket/audio.flac"
    }
  }

Затем просто выполните команду cURL, предложенную в документах для конечной точки распознавания (стараясь изменить имя файла на созданный вами JSON), и все будет хорошо.

Вот документы для конечной точки распознавания: https://cloud.google.com/speech-to-text/docs/reference/rest/v1/speech/recognize. Вы можете щелкнуть по объектам RecognitionConfig и RecognitionAudio, чтобы увидеть, что вы можете включить в файл JSON.

0 голосов
/ 20 мая 2019

Для указания примера модели по умолчанию «video» вы можете использовать его в качестве группы:

gcloud ml video // example

Это ссылка с ссылкой gcloud: https://cloud.google.com/sdk/gcloud/reference/ml-engine/#GCLOUD-WIDE-FLAGS

...