Создание речевого сервиса из Azure Speech to Text Rest API - PullRequest
0 голосов
/ 24 марта 2020

Я вижу, что в ссылках на документацию Microsoft есть две версии конечных точек API REST для Speech to Text.

https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/batch-transcription и https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/rest-speech-to-text

Одна конечная точка [https://.api.cognitive.microsoft.com/sts/v1.0/issueToken] относится к версии 1.0, а другая - [api / speechtotext / v2.0 / транскрипции] со ссылкой на версию 2.0. Как создать речевой текстовый сервис в Azure Portal для последнего?

Всякий раз, когда я создаю службу в разных регионах, она всегда создает текст для речи v1.0.

Любые советы?

PS: У меня есть учетная запись Visual Studio Enterprise с ежемесячной надбавкой, и я создаю подписку (s0) (платную), а не бесплатную (пробную) (f0).

Спасибо, Озгур

Ответы [ 2 ]

0 голосов
/ 25 марта 2020

Все официальные ресурсы Microsoft Speech, созданные в Azure Портал действителен для Microsoft Speech 2.0

Я понимаю, что это v1.0 в URL-адресе токена вызывает удивление, но этот API-интерфейс токена не является частью Speech API.

Итак, go to Azure Portal, создайте ресурс Speech, и все готово.

enter image description here

Если вы хотите быть уверены, go на ваш созданный ресурс, скопируйте ваш ключ. Это то, что вы будете использовать для авторизации, в заголовке с именем Ocp-Apim-Subscription-Key header, как объяснено здесь

Демонстрация:

  • Получите свой ключ на созданном ресурсе
  • Go до https: // [REGION] .cris.ai / swagger / ui / index (REGION - регион, в котором вы создали свой речевой ресурс)
  • Нажмите на Авторизоваться: вы увидите обе формы авторизации

authorization button

authorization process

  • Вставьте свой ключ в 1-й (subscription_Key), подтвердите
  • Закройте это окно
  • Проверьте одну из конечных точек, например ту, в которой перечислены конечные точки речи, перейдя в GET операция на /api/speechtotext/v2.0/endpoints
  • Нажмите «Попробуйте», и вы получите 200 OK ответ!

enter image description here

0 голосов
/ 25 марта 2020

Поймите вашу путаницу, потому что документ MS для этого неоднозначен. В соответствии с моим исследованием, позвольте мне пояснить это следующим образом: Существуют два типа служб для преобразования речи в текст: v1 и v2.

v1 можно найти в структуре Cognitive Service при его создании:

enter image description here

Основано на утверждениях в документе * REST-to-text API REST :

Перед использованием речи API-интерфейс REST для преобразования в текст, понимает:

  • Запросы, использующие API REST и передавающие аудио напрямую, могут содержать до 60 секунд звука.
  • Речевой текст REST API возвращает только окончательные результаты. Частичные результаты не предоставляются.

Если для вашего приложения требуется отправка более длинного звука, рассмотрите возможность использования Speech SDK или API-интерфейса REST на основе файлов, такого как пакетная транскрипция.

Итак v1 имеет некоторые ограничения для форматов файлов или размера аудио. Если у вас есть дополнительные требования, перейдите к v2 api Пакетная транскрипция, размещенная на Zoom Media. Вы можете понять это, прочитав этот документ из ZM. Вы можете создать этот Speech Api в Azure Marketplace:

enter image description here

Это страница для его создания:

enter image description here

Кроме того, вы можете просмотреть документ API в нижней части страницы, это Документ API V2 .

Окончательный совет:

Конечная точка v1 как: https://eastus.api.cognitive.microsoft.com/sts/v1.0/issuetoken

Конечная точка v2 как:

enter image description here

...