dask.dataframe.DataFrame.max для большого набора данных HDF5 из xarray занимает много памяти? - PullRequest
0 голосов
/ 08 октября 2018

Я пытаюсь научиться использовать DataFrame dask, у меня две проблемы:

  1. Невозможно прочитать набор данных напрямую, используя dask.dataframe.read_hdf, получить ValueError:No object to concatenate.Но тот же файл HDF5 можно загрузить с помощью

ds = xarray.open_dataset (fn, chunks = 10000)

, а затем преобразовать в DataFrame изdask от

dd = ds.to_dask_dataframe ()

Результат: a DataFrame npartitions = 10296 Имя Dask: индексированное по конкату, 483931 задач

Невозможно выполнить da.max().compute(), все 64 ГБ памяти были заняты почти сразу, даже с da.compute(scheduler='synchronous').

Мне интересно, в чем проблема, и будет автоматически уменьшать все результаты или сохранять несколькоmax результатов в памяти?

...