Я следовал руководству https://cmusphinx.github.io/wiki/tutorialam/, чтобы подготовить новую акустическую модель для моего вьетнамского языка.Просто я записал цифры от 0 до 9 для обучения, а также использовал эти обученные данные для проверки.Следовательно, точность должна быть 100%, как и ожидалось.Тем не менее, это только около 20% (признают только 2 и 3).Я перезаписывал много раз, но это не изменилось.Я могу убедиться, что я точно выполняю все требования, такие как частота дискретизации 16k, глубина 16 бит, ...
Может ли кто-нибудь дать мне какое-то объяснение и способ улучшить мою модель?Спасибо, все
Вот мой проект: https://github.com/legiaquy/test