Поймите вашу путаницу, потому что документ MS для этого неоднозначен. В соответствии с моим исследованием, позвольте мне пояснить это следующим образом: Существуют два типа служб для преобразования речи в текст: v1
и v2
.
v1 можно найти в структуре Cognitive Service при его создании:
![enter image description here](https://i.stack.imgur.com/n2lb7.png)
Основано на утверждениях в документе * REST-to-text API REST :
Перед использованием речи API-интерфейс REST для преобразования в текст, понимает:
- Запросы, использующие API REST и передавающие аудио напрямую, могут содержать до 60 секунд звука.
- Речевой текст REST API возвращает только окончательные результаты. Частичные результаты не предоставляются.
Если для вашего приложения требуется отправка более длинного звука, рассмотрите возможность использования Speech SDK или API-интерфейса REST на основе файлов, такого как пакетная транскрипция.
Итак v1 имеет некоторые ограничения для форматов файлов или размера аудио. Если у вас есть дополнительные требования, перейдите к v2 api Пакетная транскрипция, размещенная на Zoom Media. Вы можете понять это, прочитав этот документ из ZM. Вы можете создать этот Speech Api в Azure Marketplace:
![enter image description here](https://i.stack.imgur.com/m0wlE.png)
Это страница для его создания:
![enter image description here](https://i.stack.imgur.com/2sMi6.png)
Кроме того, вы можете просмотреть документ API в нижней части страницы, это Документ API V2 .
Окончательный совет:
Конечная точка v1 как: https://eastus.api.cognitive.microsoft.com/sts/v1.0/issuetoken
Конечная точка v2 как:
![enter image description here](https://i.stack.imgur.com/cFMmk.png)