Можем ли мы использовать mp3-файлы для распознавания голоса без использования
WAV файлы?
Не напрямую. Чтобы распознавать потоки mp3, вам нужно использовать библиотеку java для чтения mp3 и преобразования в поток pcm ( tritonus-mp3 , lameonj ). Вы также можете вызвать ffmpeg как отдельный процесс для декодирования.
или мы можем сгенерировать wav-файл из mp3, а затем выполнить распознавание голоса без серьезного влияния на точность?
В обоих случаях влияет точность, независимо от того, где вы декодируете mp3-файл.
Проблема в том, что мне нужно минимизировать нагрузку, передаваемую через
сеть в моем приложении. Будет ли информация, которая теряется в
преобразование будет огромным фактором для точности?
Лучше использовать для передачи кодек без потерь, например, flac. Преобразование mp3 ухудшает точность ASR. Другой подход заключается в вычислении функций на клиенте и передаче их на сервер.