ffmpeg - это инструмент для кодирования и декодирования аудио и видео между различными форматами сжатия по сравнению с необработанными аудио и видео данными, а также для инкапсуляции или извлечения различных потоков из различных форматов контейнеров.Он не имеет никакой функции для интерпретации значения данных, таких как распознавание слов в аудио или фигур в видео.(хотя вы, вероятно, можете извлечь текст субтитров из видео)
Интерпретация человеческой речи - это «сложная проблема», и она до сих пор является активной исследовательской темой для многих компаний и университетов.Языки и диалекты (и постоянное развитие новых слов) делают это особенно трудным.
Если вам нужно что-то бесплатное, что вы можете запустить в сценарии, не обращаясь к интернет-службе, вам нужно смотреть на программное обеспечение как CMU Sphinx , Julius или Kaldi
Я пробовал Sphinx и Juluis, со смешанными результатами.Это было некоторое время назад, поэтому я бы посоветовал попробовать последнюю версию всех 3 и посмотреть, какая из них дает наилучшую производительность для конкретного аудио, с которым вы работаете.