Я думаю, что ответ Джорджа не имеет значения, поскольку вы специально говорите о "Пользовательском" голосе / речи.
Ссылка на API
Есть API для этой части, но документация не понятно, ты прав. Вы можете найти в https://westus.cris.ai/swagger/ui/index API и доступные операции. Обратите внимание, что он выходит в нескольких регионах, например, в Западной Европе: https://westeurope.cris.ai/swagger/ui
В настоящее время эта страница указывает на Речь 2.0 API, но похоже, что скоро будет 3.0 от Microsoft. Как вы можете видеть, если вы посмотрите на сетевые вызовы с речевого портала ( ссылка ), они фактически уже используют этот API 3.0 (превью):
Как их использовать?
Вы можете посмотреть на процесс, пройдя его через портал и проверив, что вызывается на стороне API.
Вот краткий обзор процесса:
- Создайте свой набор данных для обучения модели, используя операцию
/datasets/upload
- После того, как ваш набор данных был успешно обработан, создайте модель с помощью запроса POST до
/models
(см. операцию здесь ). Этот POST содержит несколько деталей в теле: базовая модель, используемый набор данных для обучения и т. Д. c. Именно эта операция будет обучать вашу модель, вам не нужен еще один вызов для начала обучения - После завершения обучения (вы можете проверить статус, используя GET на
/models
или указав c GET используя идентификатор модели на /models/yourModelId
), вы можете «развернуть» его. Для этого вам нужно создать конечную точку на основе этой модели: это POST до /endpoints
с (см. Операцию здесь ) - Затем вы можете отслеживать состояние развертывания, вызывая GET
/endpoints
или GET по идентификатору, как для моделей