Я экспериментировал с непрерывным распознаванием с использованием MS Cognitive речь API и UCMA (с SFB) с использованием 1.1.0 SDK.У меня есть несколько вариантов работы распознавания (с использованием SpeechRecognitionConnector UCMA для доступа к звуку вызова от вызывающего абонента SFB), но я хотел проверить, есть ли другие поддерживаемые битрейты для аудио.
Документация здесь для AudioConfig.FromStreamInput говорит, что
В настоящее время поддерживается только WAV / PCM с 16-битными выборками, частотой дискретизации 16 кГц и одним каналом (Mono).
Первоначально я использовал NAudio
для повторной выборки аудио из вызова SFB (8 кГц) до 16 кГц и передал его на распознаватель.Однако, если я обойду это и отправлю звук 8 кГц на распознаватель, я получу результаты обратно, хотя качество транскрипции кажется хуже, чем когда я пересэмплировал звук.
Тогда мой вопрос:Аудио на 8 кГц фактически поддерживается, или если это тот случай, когда он принимает поток, но неправильно интерпретирует звук?