Question

Можем ли мы использовать mp3-файлы для распознавания голоса без использования wav-файлов? или мы можем сгенерировать файл WAV из mp3, а затем сделать распознавание голоса без серьезного влияния на точность? Проблема в том, что мне нужно минимизировать нагрузку, передаваемую через сеть в моем приложении. Будет ли информация, которая теряется при конвертации, быть важным фактором для точности?

Nikolay Shmyrev · Answer 1 · 28 января 2012

Можем ли мы использовать mp3-файлы для распознавания голоса без использования WAV файлы?

Не напрямую. Чтобы распознавать потоки mp3, вам нужно использовать библиотеку java для чтения mp3 и преобразования в поток pcm ( tritonus-mp3 , lameonj ). Вы также можете вызвать ffmpeg как отдельный процесс для декодирования.

или мы можем сгенерировать wav-файл из mp3, а затем выполнить распознавание голоса без серьезного влияния на точность?

В обоих случаях влияет точность, независимо от того, где вы декодируете mp3-файл.

Проблема в том, что мне нужно минимизировать нагрузку, передаваемую через сеть в моем приложении. Будет ли информация, которая теряется в преобразование будет огромным фактором для точности?

Лучше использовать для передачи кодек без потерь, например, flac. Преобразование mp3 ухудшает точность ASR. Другой подход заключается в вычислении функций на клиенте и передаче их на сервер.

распознавание mp3 с использованием Sphinx 4

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

распознавание mp3 с использованием Sphinx 4

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы