У меня есть генератор данных, который работает, но очень медленно читает данные из набора данных изображений 200k.
Я использую:
X=f[self.trName][idx * self.batch_size:(idx + 1) * self.batch_size]
после открытия файла с помощью f=h5py.File(fileName,'r')
Кажется, что это медленнее, поскольку idx велик (последовательный доступ?), Но в любом случае чтение пакета занимает не менее 10 секунд (иногда> 20 сек c), что слишком медленно (более того, чтение с SSD!)
Есть идеи?
Набор данных занимает 50,4 ГБ на диске (сжатый) и имеет следующую форму: (210000, 2, 128, 128)
(это форма обучающего набора, цели имеют одинаковую форму и хранятся в виде другого набора данных в этом же файле .h5)