Я настраиваю проект с Microsoft речь в текст . Он отлично работает, и я могу транскрибировать то, что я говорю, в текст и позже отправить его другим подписчикам signalR.
Однако теперь мне необходимо связать его с распознаванием динамика . Другими словами: я хочу, чтобы моя речь в тексте распознавала лишь несколько ораторов.
В настоящее время я использую классический TranslationRecognizer класс, который получает микрофон по умолчанию и переводит на лету.
Затем я использую класс StartContinuousRecognitionAsync , чтобы начать распознавание.
Есть ли способ получить аудиопоток перед его отправкой в службу перевода, чтобы проверить, является ли пользователь правильным, а затем, после проверки в порядке, возобновить стандартное выполнение?
Я предполагаю, что это будет лучшей идеей, но я открыт для любых идей или изменений архитектуры.
Спасибо за ваш вклад