Я изучаю возможности SpeechRecognitionEngine
, и моя конечная цель - ввести WAV-файл и транскрипцию этого WAV-файла, а также вывести позиции в WAV-файле начала (и в идеале - конца)каждого слова.
Я могу заставить движок успешно распознавать фразу, но я не могу понять, как извлечь аудио позиции, когда слово начинается, а не когда гипотеза была распознана или распознана и т. д.
Если вам интересно, в чем смысл этого, то это автоматизация рабочих процессов анимации с синхронизацией.
Спасибо за ваше время.