Question

Я изучаю возможности SpeechRecognitionEngine, и моя конечная цель - ввести WAV-файл и транскрипцию этого WAV-файла, а также вывести позиции в WAV-файле начала (и в идеале - конца)каждого слова.

Я могу заставить движок успешно распознавать фразу, но я не могу понять, как извлечь аудио позиции, когда слово начинается, а не когда гипотеза была распознана или распознана и т. д.

Если вам интересно, в чем смысл этого, то это автоматизация рабочих процессов анимации с синхронизацией.

Спасибо за ваше время.

Nikolay Shmyrev · Answer 1 · 06 декабря 2011

Правильное выравнивание звука и текста - это задача, которая требует определенных алгоритмов, отличных от распознавания речи. Вы можете эмулировать некоторые функции выравнивания с помощью механизма ASR, но он будет работать хорошо.

Для реализации алгоритмов выравнивания вы можете проверить инструментарий распознавания речи CMUSphinx:

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

http://www.bluevincent.com/2011/02/speech-to-text-using-java.html

Или вы можете воспользоваться услугами коммерческой компании, например Nexiwave

http://nexiwave.com/index.php/applications/transcription-timestamping

Как определить положение распознанных слов SpeechRecognitionEngine?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как определить положение распознанных слов SpeechRecognitionEngine?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы