Я работаю над проблемой классификации речевых команд Google. Это аудиофайлы данных 1-se c. Я обрезал фоновые данные в 1-se c куски и наложил их на аудиофайлы, используя библиотеку Pydub. Теперь я смущен тремя путями и не знаю, какой из них правильный. Модель должна быть протестирована на данных в реальном времени, используя mi c.
1) Наложение шума на весь набор данных.
2) Наложение шума на половину набора данных и оставьте еще половину оригинала
3) Наложите шумы на весь набор данных и добавьте шумы к исходному набору данных.
Какой из этих вышеописанных методов следует использовать для получения максимальной точности?
Любая помощь будет оценена. Спасибо.