У меня есть большие наборы данных изображений для обучения CNN. Поскольку я не могу загрузить все изображения в свою оперативную память, я планирую выгрузить их в файл HDF5 (с h5py), а затем выполнить итерацию по набору по частям, как предложено в
Самый эффективный способ использовать большой набор данных для PyTorch?
Я пытался создать собственный набор данных для каждой картинки, находящейся в одной группе, что очень быстро. Но я не мог понять, что нужно перебирать все наборы данных в группе, кроме доступа к набору по его имени. В качестве альтернативы я попытался поместить все изображения итеративно в один набор данных, расширив его форму в соответствии с
Как добавить данные в один конкретный набор данных в файле hdf5 с помощью h5py и
инкрементная запись в hdf5 с h5py
но это очень медленно. Есть ли более быстрый способ создания набора данных HDF5 для итерации?