как определить размер блока hdf5 динамически? - PullRequest
0 голосов
/ 19 июня 2020

Я использую h5py для создания наборов данных hdf5 с использованием фрагментов и записи их в соответствующие файлы h5 с помощью сжатия gzip:

with h5py.File(self.filename,"w") as hf:
                hf.create_dataset("T",data=testdata,compression="gzip",chunks=True,maxshape=(None,None))

Я понимаю, что оптимальный выбор размера фрагмента зависит от размера набора данных. Однако мой размер входных данных является переменным (даже если мой набор данных имеет фиксированный размер), и я обнаружил, что, поскольку размер моих данных увеличился, размер блока, который у меня сейчас, вероятно, невелик, поэтому мои файлы h5 занимают больше времени, чем раньше.

Каков хороший систематический c подход к установке размера фрагмента, если размер входных данных является переменным (например, размер 2x по сравнению с предыдущим), и где мне также нужно использовать сжатие gzip ? Моя цель - обеспечить максимально быстрое чтение / запись файлов h5, созданных таким образом, с использованием фрагментов и сжатия gzip.

Спасибо.

...