Question

Я следовал руководству https://cmusphinx.github.io/wiki/tutorialam/, чтобы подготовить новую акустическую модель для моего вьетнамского языка.Просто я записал цифры от 0 до 9 для обучения, а также использовал эти обученные данные для проверки.Следовательно, точность должна быть 100%, как и ожидалось.Тем не менее, это только около 20% (признают только 2 и 3).Я перезаписывал много раз, но это не изменилось.Я могу убедиться, что я точно выполняю все требования, такие как частота дискретизации 16k, глубина 16 бит, ...

Может ли кто-нибудь дать мне какое-то объяснение и способ улучшить мою модель?Спасибо, все

Вот мой проект: https://github.com/legiaquy/test

Anh Quý Lê Gia · Answer 1 · 15 мая 2019

Хорошо, это мое решение https://sourceforge.net/p/cmusphinx/discussion/help/thread/4563203ac5/ для тех, у кого такая же проблема.

Nikolay Shmyrev · Answer 2 · 15 мая 2019

Тренировочных данных недостаточно. Согласно учебник вам нужно:

1 час записи для управления и контроля для одного динамика

5 часов записи 200 громкоговорителей для управления и контроля для многих громкоговорителей

10 часов записи для диктовки с одним оратором

50 часов записи 200 колонок для многих дикторов

Вы можете получить вьетнамские данные из https://github.com/undertheseanlp/automatic_speech_recognition

CMUSphinx Training акустическая модель с очень низкой точностью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

CMUSphinx Training акустическая модель с очень низкой точностью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы