Question

Я вижу, что в ссылках на документацию Microsoft есть две версии конечных точек API REST для Speech to Text.

https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/batch-transcription и https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/rest-speech-to-text

Одна конечная точка [https://.api.cognitive.microsoft.com/sts/v1.0/issueToken] относится к версии 1.0, а другая - [api / speechtotext / v2.0 / транскрипции] со ссылкой на версию 2.0. Как создать речевой текстовый сервис в Azure Portal для последнего?

Всякий раз, когда я создаю службу в разных регионах, она всегда создает текст для речи v1.0.

Любые советы?

PS: У меня есть учетная запись Visual Studio Enterprise с ежемесячной надбавкой, и я создаю подписку (s0) (платную), а не бесплатную (пробную) (f0).

Спасибо, Озгур

Nicolas R · Answer 1 · 25 марта 2020

Все официальные ресурсы Microsoft Speech, созданные в Azure Портал действителен для Microsoft Speech 2.0

Я понимаю, что это v1.0 в URL-адресе токена вызывает удивление, но этот API-интерфейс токена не является частью Speech API.

Итак, go to Azure Portal, создайте ресурс Speech, и все готово.

Если вы хотите быть уверены, go на ваш созданный ресурс, скопируйте ваш ключ. Это то, что вы будете использовать для авторизации, в заголовке с именем Ocp-Apim-Subscription-Key header, как объяснено здесь

Демонстрация:

Получите свой ключ на созданном ресурсе
Go до https: // [REGION] .cris.ai / swagger / ui / index (REGION - регион, в котором вы создали свой речевой ресурс)
Нажмите на Авторизоваться: вы увидите обе формы авторизации

Вставьте свой ключ в 1-й (subscription_Key), подтвердите
Закройте это окно
Проверьте одну из конечных точек, например ту, в которой перечислены конечные точки речи, перейдя в GET операция на /api/speechtotext/v2.0/endpoints
Нажмите «Попробуйте», и вы получите 200 OK ответ!

Jay Gong · Answer 2 · 25 марта 2020

Поймите вашу путаницу, потому что документ MS для этого неоднозначен. В соответствии с моим исследованием, позвольте мне пояснить это следующим образом: Существуют два типа служб для преобразования речи в текст: v1 и v2.

v1 можно найти в структуре Cognitive Service при его создании:

Основано на утверждениях в документе * REST-to-text API REST :

Перед использованием речи API-интерфейс REST для преобразования в текст, понимает:

Запросы, использующие API REST и передавающие аудио напрямую, могут содержать до 60 секунд звука.
Речевой текст REST API возвращает только окончательные результаты. Частичные результаты не предоставляются.

Если для вашего приложения требуется отправка более длинного звука, рассмотрите возможность использования Speech SDK или API-интерфейса REST на основе файлов, такого как пакетная транскрипция.

Итак v1 имеет некоторые ограничения для форматов файлов или размера аудио. Если у вас есть дополнительные требования, перейдите к v2 api Пакетная транскрипция, размещенная на Zoom Media. Вы можете понять это, прочитав этот документ из ZM. Вы можете создать этот Speech Api в Azure Marketplace:

Это страница для его создания:

Кроме того, вы можете просмотреть документ API в нижней части страницы, это Документ API V2 .

Окончательный совет:

Конечная точка v1 как: https://eastus.api.cognitive.microsoft.com/sts/v1.0/issuetoken

Конечная точка v2 как:

Создание речевого сервиса из Azure Speech to Text Rest API

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создание речевого сервиса из Azure Speech to Text Rest API

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы