Я на самом деле использую Pocketsphinx для Speech-To-Text аудио файла.
Я использую эту команду:
pocketsphinx_continuous -logfn /dev/null -infile audio.wav > text.txt
, и я хочу знать, есть ли способ получить временные метки каждогослово.Вот так:
startTime: 0.000s, endTime: 0.200s, word: hello
startTime: 0.250s, endTime: 0.500s, word: world
Мне не обязательно использовать Pocketsphinx, но мне нужен бесплатный и не ограниченный способ для Speech-To-Text аудио файла в Linux.