Это очень похоже на этот вопрос и имеет очень похожий ответ. Вам необходимо выделить аудио часть, преобразовать ее в формат WAV и отправить в распознаватель inproc.
Однако у него есть те же проблемы, которые я описал ранее (требует тренировки, предполагает один голос и предполагает, что микрофон находится близко к динамику). Если это так, то вы можете получить достаточно хорошие результаты. Если это не так (т. Е. Вы пытаетесь транскрибировать телешоу или, что еще хуже, какой-то звук с видеокамеры), то результаты, скорее всего, будут неудовлетворительными.