Я пытаюсь понять тренировку параметров GMM-HMM в распознавании речи.
Как работает выравнивание силы Витерби во время тренировки?
Мое текущее предположение заключается в том, что во время тренировки, поскольку телефоны и наблюдение известный, так что путь состояния известен. Это называется выравниванием силы Витерби? Как только мы узнаем путь состояния, параметр можно оценить с помощью Baum-Welch. Так ли это?
Более того, одно состояние может быть связано с несколькими кадрами, поскольку высказывание телефона может распространяться на несколько кадров. Как это тренируется?