Как использовать распознавание речи с / на видео файл? - PullRequest
3 голосов
/ 09 ноября 2009

Как мне кодировать механизм распознавания речи (с помощью Microsoft Speech SDK), чтобы «прослушивать» видеофайл и сохранять обнаружение в файл?

1 Ответ

2 голосов
/ 11 ноября 2009

Это очень похоже на этот вопрос и имеет очень похожий ответ. Вам необходимо выделить аудио часть, преобразовать ее в формат WAV и отправить в распознаватель inproc.

Однако у него есть те же проблемы, которые я описал ранее (требует тренировки, предполагает один голос и предполагает, что микрофон находится близко к динамику). Если это так, то вы можете получить достаточно хорошие результаты. Если это не так (т. Е. Вы пытаетесь транскрибировать телешоу или, что еще хуже, какой-то звук с видеокамеры), то результаты, скорее всего, будут неудовлетворительными.

...