Поскольку студент-инженер работает над областями DSP и ML, я работаю над проектом по классификации аудио, в котором вводятся короткие клипы (4 se c.) Таких инструментов, как бас, клавиатура, гитара и т. Д. c. ( NSynth Dataset от команды Magenta в Google ).
Идея состоит в том, чтобы преобразовать все короткие клипы (файлы .wav) в спектрограммы или мельспектрограммы, а затем применить CNN для обучения модели.
Однако мои вопросы таковы, что весь набор данных большой (приблизительно 23 ГБ), и мне интересно, если мне сначала нужно преобразовать все аудиофайлы в изображения, такие как PNG, а затем применить CNN. Я чувствую, что это может занять много времени, и это удвоит пространство для хранения моих входных данных, так как теперь это аудио + изображение (возможно, до 70 ГБ).
Таким образом, мне интересно, есть ли Обходной путь, который может ускорить процесс.
Заранее спасибо.