Question

Я настраиваю проект с Microsoft речь в текст . Он отлично работает, и я могу транскрибировать то, что я говорю, в текст и позже отправить его другим подписчикам signalR.

Однако теперь мне необходимо связать его с распознаванием динамика . Другими словами: я хочу, чтобы моя речь в тексте распознавала лишь несколько ораторов.

В настоящее время я использую классический TranslationRecognizer класс, который получает микрофон по умолчанию и переводит на лету.

Затем я использую класс StartContinuousRecognitionAsync , чтобы начать распознавание.

Есть ли способ получить аудиопоток перед его отправкой в службу перевода, чтобы проверить, является ли пользователь правильным, а затем, после проверки в порядке, возобновить стандартное выполнение?

Я предполагаю, что это будет лучшей идеей, но я открыт для любых идей или изменений архитектуры.

Спасибо за ваш вклад

Zhou Wang · Answer 1 · 23 октября 2019

Спасибо, что обратились к нам! В настоящее время функция диаризации говорящего (то есть, кто говорит) доступна только в нашей службе пакетной транскрипции , но пока не доступна для распознавания речи в режиме реального времени. Однако, если вы можете самостоятельно разделить динамики, например, на основе аудиоканала, вы можете передать аудиопоток для конкретного динамика через AudioInputStream интерфейс в Speech SDK для распознавания.

Спасибо.

Есть ли способ сопряжения речи MS с текстом с распознаванием ms ms?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли способ сопряжения речи MS с текстом с распознаванием ms ms?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы