Как создать собственный голос Microsoft через API или SDK - PullRequest
0 голосов
/ 02 апреля 2020

Я оцениваю Microsoft Custom Voice как потенциального поставщика и хочу знать, как программно создавать и обучать пользовательские голоса с помощью API или SDK.

После обширного поиска я нашел только документацию, показывающую, как создать собственный голос через свой собственный голосовой портал. На этой странице есть одна строка, намекающая на пользовательский API для обучения голосу.

Ниже приведен этот отрывок и ссылка на эту страницу документации.

Не могли бы вы помочь мне разобраться, как это сделать? это или подтвердить, что такого API не существует?

Как только вы подготовите свои данные, вы можете начать загружать их на портал Custom Voice или через API обучения Custom Voice.

https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/how-to-custom-voice-create-voice

Ответы [ 2 ]

0 голосов
/ 03 апреля 2020

Я думаю, что ответ Джорджа не имеет значения, поскольку вы специально говорите о "Пользовательском" голосе / речи.

Ссылка на API

Есть API для этой части, но документация не понятно, ты прав. Вы можете найти в https://westus.cris.ai/swagger/ui/index API и доступные операции. Обратите внимание, что он выходит в нескольких регионах, например, в Западной Европе: https://westeurope.cris.ai/swagger/ui

api capture

В настоящее время эта страница указывает на Речь 2.0 API, но похоже, что скоро будет 3.0 от Microsoft. Как вы можете видеть, если вы посмотрите на сетевые вызовы с речевого портала ( ссылка ), они фактически уже используют этот API 3.0 (превью):

api 3.0 used in portal

Как их использовать?

Вы можете посмотреть на процесс, пройдя его через портал и проверив, что вызывается на стороне API.

Вот краткий обзор процесса:

  1. Создайте свой набор данных для обучения модели, используя операцию /datasets/upload
  2. После того, как ваш набор данных был успешно обработан, создайте модель с помощью запроса POST до /models (см. операцию здесь ). Этот POST содержит несколько деталей в теле: базовая модель, используемый набор данных для обучения и т. Д. c. Именно эта операция будет обучать вашу модель, вам не нужен еще один вызов для начала обучения
  3. После завершения обучения (вы можете проверить статус, используя GET на /models или указав c GET используя идентификатор модели на /models/yourModelId), вы можете «развернуть» его. Для этого вам нужно создать конечную точку на основе этой модели: это POST до /endpoints с (см. Операцию здесь )
  4. Затем вы можете отслеживать состояние развертывания, вызывая GET /endpoints или GET по идентификатору, как для моделей
0 голосов
/ 02 апреля 2020

Если вы просто хотите получить API и SDK, они все в do c.

Вот api преобразования текста в речь, если вы хотите sdk, который вы могли бы go для этого сделать c: О Speech SDK .

И о том, как создать собственный голос, нужна учетная запись Azure и служба речи подписка, более подробную информацию, вы можете обратиться к этому сделать c: Начало работы с Custom Voice .

...