Когда мы применяем алгоритм Витерби к HMM, какую вероятность мы рассчитываем? Это самый высокий р (теги / слова) или самый высокий р (теги, слова). Я думаю, что это должно быть р (теги / слова). Я сбит с толку, потому что HMM обучаются на совместной вероятности p (теги, слова), в то время как CRF обучаются на вероятности условия p (теги / слова). Поэтому я не уверен, применим ли к ним алгоритм Витерби, который мы вычисляем.
Другой вопрос касается алгоритма форварда. Отличается ли это, когда мы применяем его на HMM и когда мы применяем его на CRF?