CMU Sphinx работает очень хорошо для меня, просто для того, чтобы поделиться некоторыми знаниями, моя установка:
- ОС Linux, конечно.
- Я записываю 32 кГц .wavфайлы, которые я позже передаю в Recognizer как audioFileDataSource для преобразования речи в текст.
- Модель языка Trigram (класс SimpleNGramModel)
- Моя языковая модель - это пользовательская модель, сгенерированная с помощьюслова / фразы, которые я хотел.(Использовал CMU Cam Toolkit версии 2 (документы доступны по адресу http://svr -www.eng.cam.ac.uk / ~ prc14 / toolkit_documentation.html для создания моих собственных файлов trigram.arpa)
- Моя акустическая модель - это wsj (класс TiedStateAcousticModel) и wsjLoader (класс Sphinx3Loader) с WSJ_8gau_13dCep_8kHz_31mel_200Hz_3500Hz.jar (по некоторым причинам, это работает лучше для меня, чем модель 16 кГц *
- 1015) и словарь.Live FrontEnd с melFilterBank (настроенный на параметры акустической модели) и liveCMN.
Я думаю, ключ в том, чтобы сгенерировать соответствующие файлы trigram.arpa с помощью инструментов.
Youпридется настраивать ваши свойства конфигурации sphinx по мере необходимости, для этого не существует волшебной пули, некоторые из них, которые мне помогли, - speechClassifierThreshold (44) и speechMarkerTrailer (77).
Надеюсь, это поможет илипо крайней мере, дает вам некоторые идеи.