Я столкнулся с похожей проблемой, это связано с приемлемым форматом.Даже если вы конвертировали в RAW, все равно может быть что-то не так с форматом, он не выдаст вывод, если не сможет прочитать файл.
Недавно я обработал 56-минутный звук, который занял17 минут, так что это должно дать вам представление о том, как долго это должно быть.
Обработайте ваш файл с помощью sox, я нашел параметры преобразования, которые работают с помощью команды -
sox basefile.mp3 -r 16000 -c 1 newfile.flac