Я вытаскиваю набор данных из файла MATLAB mat, который имеет формат HDF5, как показано ниже:
matfile = 'C:\\....\\dataStuff.mat'
f = h5py.File(matfile, 'r')
data = f['/' + stuff + '/data/'].value
df = pd.DataFrame(data) # How do I create a Dask DF instead from data?
Как мне сделать то же самое, но вместо использования Pandas я создаю Dask Dataframe?
Следующая функция выдает ошибку:
ddf = dd.read_hdf(matfile, 'key')
класс HDF5 H5T_COMPOUND
пока не поддерживается
Я мог попытатьсяпросто преобразуйте DF Pandas в Dask DF, как показано ниже, но я хотел бы пропустить этот шаг, который занимает еще 2 минуты, но перетаскивает данные HDF5 непосредственно в Dask Dataframe, как я это делал с Pandas.
df = dd.from_pandas(df, npartitions=3) # What I don't want to do