Как лучше всего настроить генерацию данных из семплов аудио-набора в swift, которые будут использоваться в качестве обучающих данных для сверточного нейрона net?