Большие аудио-файлы речи в текст [Microsoft Speech API] - PullRequest
0 голосов
/ 11 июня 2018

Как лучше всего транскрибировать средние / большие аудиофайлы, ~ 6-10 минут каждый файл, используя Microsoft Speech API?Что-то вроде транскрипции пакетных аудиофайлов?

Я использовал код, приведенный в https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample,, для непрерывной расшифровки речи, но в какой-то момент он прекращается.Есть ли какие-либо ограничения на транскрипцию?Я использую только бесплатную пробную учетную запись atm.

Кстати, я предполагаю, что нет никакой разницы между Bing Speech API и новым API речевого сервиса, верно?

Спасибо всем!

Ответы [ 2 ]

0 голосов
/ 19 июня 2018

спасибо за ваш отзыв.

Я согласен, что образец (и документация, которую вы просматриваете) не очень понятен, мы скоро обновим его.

Образец использует RecognizeAsync, и его следует вызвать RecognizeOnceAsync.В настоящее время он просто пытается вернуть FIRST FinalResult из службы.Вы должны использовать Start / StopRecognizeAsync и зарегистрироваться, чтобы получать события Result.

Опять же, извините за плохую документацию, мы скоро ее обновим, а также переименуем API, вероятно, в обновлении.

Если у вас есть аудиофайлы, вы также можете использовать функцию пакетной транскрипции.Возможно, это помогает?https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/batch-transcription

Приветствия Вольфгангу

0 голосов
/ 11 июня 2018

Речевые службы допускают 5000 транзакций в месяц, 20 в минуту во время бесплатной пробной версии, поэтому, возможно, в какой-то момент вы превысите лимит 20 в минуту из-за непрерывного распознавания в реальном времени.

...