Я пытаюсь создать систему распознавания речи для машинного обучения.
В настоящее время я использую следующую схему:
- , беру набор данных из моих аудиофайлов и вычисляя для каждых 0,15 секунд аудиофайла 13 mel freaquency coeffs
- каждые 13 коэффи- циентов, которые я вводю в нейронную сеть, основанную на 3 блоках [conv, pool, norm]
- для тестовых файлов, я использую большинство по всем выходным данным для каждого вектора 13 коэффи- циентов
Я обычно получаю около 85% распознавания для 3 динамиков, что не удивительно, и поэтому я решил, что хочу добавить некоторые функции, но я не знаю, что добавить ...
Кто-то У меня есть рекомендации по поводу того, какую функцию я должен добавить / что мне нужно сделать, чтобы увеличить мой приоритет?
Я попытался использовать модуль с таким названием - "pitch", который дает мне высоту wav-файла, но это дал мне очень рандоми c значений (например, для того же динамика он дал мне 360, 80, 440 за 3 первых ауд ios)
Большое спасибо за любую помощь