Я сделал это, наконец. Мой WER (коэффициент ошибок по словам) после тренировки составляет 0%. У меня есть небольшой набор данных для простого распознавания голоса (только для слов «да» и «нет» на другом языке). Я тренировался со sphinxtrain (126 файлов, 12 файлов теста). Аудиофайлы имеют длину ~ 5 с и содержат 8 слов (смешанные да / нет).
После обучения я решил взять свои тестовые файлы и запустить их через pocketsphinx. Почти у каждого файла, который я проверял, была ошибка как минимум в 1 слове. Иногда он узнал на 1-2 слова больше, чем ожидалось. Иногда он признавал «да» как «нет».
- Я хотел бы знать, почему я получаю разные результаты от сфинкстрина и карманного сфинкса.
- Я также хотел бы знать, как я могу улучшить свои результаты, используя pocketsphinx. (Особенно то, что карманный сфинкс распознает одно «нет» как два «нет».