Dask compute () для коллекции, которая не помещается в памяти - PullRequest
0 голосов
/ 31 января 2019

Какая альтернатива dask.compute(), если коллекция не помещается в памяти?Какое-то отображение памяти?

Я просмотрел эту документацию , но не увидел на первый взгляд.

1 Ответ

0 голосов
/ 31 января 2019

Вы правы, что при вызове .compute() часто создается объект в памяти, такой как массив NumPy или Pandas DataFrame, который должен помещаться в памяти.

Часто это не проблема, потому что результаты многих анализов имеют тенденцию быть маленькими (как точки данных, которые заканчиваются на графике), или потому что выходные данные намеренно сохраняются, как в случаеdf.to_parquet('...').Однако иногда вы хотите запускать вычисления, но храните данные в распределенной памяти.В этом случае люди склонны использовать метод .persist() вместо .compute().

См. Документацию persist API для получения дополнительной информации.

...