Вы можете получить результаты, набрав HVite
в режиме принудительного выравнивания. Боюсь, вы должны запустить это для каждой имеющейся у вас фонемы:
HVite -A -D -T 1 -l '*' -o NTW -C HTK.cfg -a \
-H macros \
-H hmmdefs \
-i acoustic_score_AA.mlf \
-y lab \
-I AA.mlf \
-S index.scp \
words phones
Выходной файл acoustic_score_AA.mlf
будет содержать результат. I
Содержание words
файла словаря должно быть таким:
AA AA
AE AE
....
ZH ZH
и phones
должен содержать список фонем (модели HMM), насколько я помню.
Хитрость в этом заключается в содержимом входного файла .mlf. Например, AA.mlf
должно быть таким:
#!MLF!#
"*/S0001.lab"
AA
.
Это заставит HVite применить модель AA
для всего высказывания. Разделение аудиофайла должно быть выполнено заранее.