Я бы пересмотрел использование библиотеки распознавания речи ... как программное обеспечение CMU Sphinx или распознаватель речи Microsoft . К сожалению, это не простая задача сделать это самостоятельно. Один из подходов, который несколько типичен для выполнения того, что вы пытаетесь сделать, заключается в следующем:
1) Нарезать образец на маленькие сегменты (несколько миллисекунд)
2) Преобразование Фурье на каждом сегменте, собрать главные коэффициенты
3) использовать скрытую марковскую модель, чтобы выяснить вероятный переход фонем с учетом вашей последовательности коэффициентов
4) сопоставление со словарем, отображающим фонемы для слов (вы можете посмотреть в качестве справочника по словарю Сфинкса) ... небольшой набор, подобный вашему, должен дать отличные результаты.
Если вы хотите несколько упростить это, вы можете попытаться взять коэффициенты на определенных временных шагах и передать их в SVM или нейронную сеть ... Я еще не пробовал, но держу пари, что вы можете получить разумные результаты с некоторой настройкой.