Уотсон «Речь к тексту» не распознает микрофонный вход должным образом - PullRequest
0 голосов
/ 07 июня 2018

Я использую Unity SDK, предоставляемый для сервисов IBM Watson.Я пытаюсь использовать пример «ExampleStreaming.cs» для распознавания речи и текста.Я тестирую приложение в редакторе Unity.

Этот образец использует микрофон в качестве аудиовхода и получает результаты для голосового ввода от пользователя.Тем не менее, когда я использую микрофон в качестве входных данных, расшифрованные результаты далеки от правильных.Когда я говорю «Создать черный ящик», результаты неуместны, а слово «результаты» совершенно не имеет отношения к вводу.

Когда я использую предварительно записанные голосовые клипы, вывод будет идеальным.Служба работает неправильно для индийского акцента?В чем причина плохого распознавания входного сигнала с микрофона?

В документах говорится: «В целом, служба чувствительна к фоновому шуму. Например, шум двигателя, рабочие устройства, уличный шум и разговоры могут значительно снизить точностьКроме того, микрофоны, которые обычно устанавливаются на мобильные устройства и планшеты, часто неадекватны. Услуга работает лучше всего, когда профессиональные микрофоны используются для записи звука с лучшим качеством. "

Я использую микрофон гарнитуры Logitech в качестве источника входного сигнала.

1 Ответ

0 голосов
/ 07 июня 2018

Satish,

Попробуйте "очистить" звук как можно лучше - ограничив фоновый шум.Также помните, что вы можете использовать одну из двух разных моделей обработки - одну для широкополосной связи и одну для узкополосной.Попробуйте оба варианта и посмотрите, какое из них наиболее подходит для вашего устройства ввода.

Кроме того, вы можете обнаружить, что базовая модель речи не обрабатывает все специфичные для домена термины, которые вы можете искать.В этих случаях вы можете настроить и расширить речевую модель, как описано в документации по использованию пользовательских языковых моделей (https://console.bluemix.net/docs/services/speech-to-text/custom.html#custom).. Хотя это немного сложнее, часто это может иметь огромное значениев точности и удобстве использования.

...