Не тривиальная задача.Генерация языковой модели - это трудоемкая и ресурсоемкая задача.
Если вы хотите иметь «хорошую» языковую модель, вам понадобится большой или очень большой корпус текста для обучения языковой модели (подумайте впорядок величины нескольких лет текстов журналов Уолл-стрит).
«хорошо» означает: если языковая модель сможет обобщать данные обучения на новые и ранее невидимые входные данные
Вам следует ознакомиться с документацией по Sphinx и языку HTK.модельные наборы инструментов.
http://cmusphinx.sourceforge.net/wiki/tutoriallm
Также проверьте эти два потока:
Создание модели языка, совместимой с openears
Анализ текста в Ruby
Вы можете взять более общую языковую модель, основанную на большем корпусе, и интерполировать с ней вашу меньшую языковую модель ... например, модель отсроченного языка ... но это не тривиальная задача.
см .: Модель отсрочки Каца