Это зависит от того, какую речь вы пытаетесь распознать.
Это статья 2005 года, в которой объясняются некоторые трудности при создании программы диктовки: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html. Если вы хотите, механизм распознавания речи Julius кажется многообещающим, но вам нужно будет добавить свои собственные акустические и языковые модели. Вы можете использовать акустическую модель voxforge .
Если вы не пытаетесь написать программу диктовки, тогда у вас гораздо более простая задача. Командные программы имеют ограниченный словарный запас, например, «Если вы хотите продолжить на английском языке, скажите« английский »».
Мне удалось получить довольно хорошие результаты, используя pocketsphinx и gstreamer, чтобы сделать программой , которая автоматически редактирует большинство вхождений слова " twitter " из TWiT подкаст. Это не работало вообще, пока я не использовал свою собственную языковую модель, основанную на стенограммах подкаста; машинные транскрипции из распознавателя речи бесполезны / смешны, но они хорошо справляются с поиском ключевого слова.