Мне довольно любопытно об этом.
В широком смысле, как можно поступить следующим образом:
Это предмет обширных исследований до наших дней. Обычно начинают строить модель на основе лингвистического анализа языка, в котором вы будете распознавать, и выявлять все случаи разделения слов и слогов. Затем распознавание в основном выполняется с использованием скрытых марковских моделей по сигналу.
Вот несколько ссылок, которые могут дать вам лучшие идеи:
http://lands.let.kun.nl/literature/eric.2004.2.pdf
http://www.asel.udel.edu/icslp/cdrom/vol4/778/a778.pdf
http://en.wikipedia.org/wiki/Speech_segmentation