Есть ли способ сопряжения речи MS с текстом с распознаванием ms ms? - PullRequest
0 голосов
/ 14 октября 2019

Я настраиваю проект с Microsoft речь в текст . Он отлично работает, и я могу транскрибировать то, что я говорю, в текст и позже отправить его другим подписчикам signalR.

Однако теперь мне необходимо связать его с распознаванием динамика . Другими словами: я хочу, чтобы моя речь в тексте распознавала лишь несколько ораторов.

В настоящее время я использую классический TranslationRecognizer класс, который получает микрофон по умолчанию и переводит на лету.

Затем я использую класс StartContinuousRecognitionAsync , чтобы начать распознавание.

Есть ли способ получить аудиопоток перед его отправкой в ​​службу перевода, чтобы проверить, является ли пользователь правильным, а затем, после проверки в порядке, возобновить стандартное выполнение?

Я предполагаю, что это будет лучшей идеей, но я открыт для любых идей или изменений архитектуры.

Спасибо за ваш вклад

1 Ответ

0 голосов
/ 23 октября 2019

Спасибо, что обратились к нам! В настоящее время функция диаризации говорящего (то есть, кто говорит) доступна только в нашей службе пакетной транскрипции , но пока не доступна для распознавания речи в режиме реального времени. Однако, если вы можете самостоятельно разделить динамики, например, на основе аудиоканала, вы можете передать аудиопоток для конкретного динамика через AudioInputStream интерфейс в Speech SDK для распознавания.

Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...