Я пытаюсь научиться использовать DataFrame
dask, у меня две проблемы:
- Невозможно прочитать набор данных напрямую, используя
dask.dataframe.read_hdf
, получить ValueError:No object to concatenate
.Но тот же файл HDF5 можно загрузить с помощью
ds = xarray.open_dataset (fn, chunks = 10000)
, а затем преобразовать в DataFrame
изdask от
dd = ds.to_dask_dataframe ()
Результат: a DataFrame npartitions = 10296 Имя Dask: индексированное по конкату, 483931 задач
Невозможно выполнить
da.max().compute()
, все 64 ГБ памяти были заняты почти сразу, даже с
da.compute(scheduler='synchronous')
.
Мне интересно, в чем проблема, и будет автоматически уменьшать все результаты или сохранять несколькоmax
результатов в памяти?