Почему чтение файлов h5 крайне медленное? - PullRequest
0 голосов
/ 10 апреля 2020

У меня есть генератор данных, который работает, но очень медленно читает данные из набора данных изображений 200k.

Я использую:

 X=f[self.trName][idx * self.batch_size:(idx + 1) * self.batch_size]

после открытия файла с помощью f=h5py.File(fileName,'r')

Кажется, что это медленнее, поскольку idx велик (последовательный доступ?), Но в любом случае чтение пакета занимает не менее 10 секунд (иногда> 20 сек c), что слишком медленно (более того, чтение с SSD!)

Есть идеи?

Набор данных занимает 50,4 ГБ на диске (сжатый) и имеет следующую форму: (210000, 2, 128, 128)

(это форма обучающего набора, цели имеют одинаковую форму и хранятся в виде другого набора данных в этом же файле .h5)

...