MATLAB HDF5 в Dask Dataframe еще не поддерживается? - PullRequest
0 голосов
/ 24 января 2019

Я вытаскиваю набор данных из файла MATLAB mat, который имеет формат HDF5, как показано ниже:

matfile = 'C:\\....\\dataStuff.mat'
f = h5py.File(matfile, 'r')
data = f['/' + stuff + '/data/'].value
df = pd.DataFrame(data) # How do I create a Dask DF instead from data?

Как мне сделать то же самое, но вместо использования Pandas я создаю Dask Dataframe?

Следующая функция выдает ошибку:

  ddf = dd.read_hdf(matfile, 'key')

класс HDF5 H5T_COMPOUND пока не поддерживается

Я мог попытатьсяпросто преобразуйте DF Pandas в Dask DF, как показано ниже, но я хотел бы пропустить этот шаг, который занимает еще 2 минуты, но перетаскивает данные HDF5 непосредственно в Dask Dataframe, как я это делал с Pandas.

df = dd.from_pandas(df, npartitions=3) # What I don't want to do
...