добавление к ответу Николая:
Это не тривиальная задача.Генерация языковой модели - это трудоемкая и ресурсоемкая задача.
Если вы хотите иметь «хорошую» языковую модель, вам понадобится большой или очень большой корпус текста для обучения языковой модели (подумайте впорядок величины нескольких лет текстов журналов Уолл-стрит).
«хорошо» означает: если языковая модель сможет обобщать данные обучения на новые и ранее невидимые входные данные
Вам следует ознакомиться с документацией по Sphinx и языку HTK.модельные наборы инструментов.
Пожалуйста, проверьте эти две темы:
Построение openears совместимой языковой модели
Анализ текста Ruby
Вы можете взять более общую языковую модель, основанную на большем корпусе, и интерполировать с ней свою меньшую языковую модель, например, модель отсроченного языка ... но это не тривиальная задача.
см .: http://en.wikipedia.org/wiki/Katz's_back-off_model