Question

Я экспериментировал с непрерывным распознаванием с использованием MS Cognitive речь API и UCMA (с SFB) с использованием 1.1.0 SDK.У меня есть несколько вариантов работы распознавания (с использованием SpeechRecognitionConnector UCMA для доступа к звуку вызова от вызывающего абонента SFB), но я хотел проверить, есть ли другие поддерживаемые битрейты для аудио.

Документация здесь для AudioConfig.FromStreamInput говорит, что

В настоящее время поддерживается только WAV / PCM с 16-битными выборками, частотой дискретизации 16 кГц и одним каналом (Mono).

Первоначально я использовал NAudio для повторной выборки аудио из вызова SFB (8 кГц) до 16 кГц и передал его на распознаватель.Однако, если я обойду это и отправлю звук 8 кГц на распознаватель, я получу результаты обратно, хотя качество транскрипции кажется хуже, чем когда я пересэмплировал звук.

Тогда мой вопрос:Аудио на 8 кГц фактически поддерживается, или если это тот случай, когда он принимает поток, но неправильно интерпретирует звук?

AudioConfig.FromStreamInput в MS когнитивно-поддерживаемых битрейтов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

AudioConfig.FromStreamInput в MS когнитивно-поддерживаемых битрейтов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы