Как мне построить модель языка с большим словарным запасом для CMU Sphinx? - PullRequest
8 голосов
/ 24 января 2011

Я хотел бы построить языковую модель для CMU Sphinx, но в моем корпусе более 1000 слов, поэтому я не могу использовать онлайн-инструмент. Как мне использовать (скрипты в cmuclmtk?) Для построения моей языковой модели?

Ответы [ 2 ]

6 голосов
/ 24 января 2011

Пожалуйста, прочитайте учебник

http://cmusphinx.sourceforge.net/wiki/tutoriallm

1 голос
/ 05 октября 2011

Не тривиальная задача.Генерация языковой модели - это трудоемкая и ресурсоемкая задача.

Если вы хотите иметь «хорошую» языковую модель, вам понадобится большой или очень большой корпус текста для обучения языковой модели (подумайте впорядок величины нескольких лет текстов журналов Уолл-стрит).

«хорошо» означает: если языковая модель сможет обобщать данные обучения на новые и ранее невидимые входные данные

Вам следует ознакомиться с документацией по Sphinx и языку HTK.модельные наборы инструментов.

http://cmusphinx.sourceforge.net/wiki/tutoriallm

Также проверьте эти два потока:

Создание модели языка, совместимой с openears

Анализ текста в Ruby

Вы можете взять более общую языковую модель, основанную на большем корпусе, и интерполировать с ней вашу меньшую языковую модель ... например, модель отсроченного языка ... но это не тривиальная задача.

см .: Модель отсрочки Каца

...