распознавание mp3 с использованием Sphinx 4 - PullRequest
0 голосов
/ 28 января 2012

Можем ли мы использовать mp3-файлы для распознавания голоса без использования wav-файлов? или мы можем сгенерировать файл WAV из mp3, а затем сделать распознавание голоса без серьезного влияния на точность? Проблема в том, что мне нужно минимизировать нагрузку, передаваемую через сеть в моем приложении. Будет ли информация, которая теряется при конвертации, быть важным фактором для точности?

1 Ответ

1 голос
/ 28 января 2012

Можем ли мы использовать mp3-файлы для распознавания голоса без использования WAV файлы?

Не напрямую. Чтобы распознавать потоки mp3, вам нужно использовать библиотеку java для чтения mp3 и преобразования в поток pcm ( tritonus-mp3 , lameonj ). Вы также можете вызвать ffmpeg как отдельный процесс для декодирования.

или мы можем сгенерировать wav-файл из mp3, а затем выполнить распознавание голоса без серьезного влияния на точность?

В обоих случаях влияет точность, независимо от того, где вы декодируете mp3-файл.

Проблема в том, что мне нужно минимизировать нагрузку, передаваемую через сеть в моем приложении. Будет ли информация, которая теряется в преобразование будет огромным фактором для точности?

Лучше использовать для передачи кодек без потерь, например, flac. Преобразование mp3 ухудшает точность ASR. Другой подход заключается в вычислении функций на клиенте и передаче их на сервер.

...