Мы хотим создать файл грамматики.Есть ли другой способ, кроме (hello|goodmorning)(jack|jill), указать вероятный набор первых слов, а затем набор вторых слов?
(hello|goodmorning)(jack|jill)
Мы используем его для распознавания речи из видео для создания субтитров.
Не уверен, что CFG является подходящей моделью для использования.Вам не нужно связывать каждое возможное слово в i-й позиции с вероятностью его появления?Если это так, то использование PCFG немного лучше, но я думаю, что оно может вырасти и стать неуправляемым очень быстро.Почему бы не использовать HMM , как это делает большинство людей?
См. Также: http://www.stat.columbia.edu/~liam/teaching/neurostat-spr11/papers/hmm/rabiner.pdf