собирая большой фрейм данных обратно в мастер в распределенном dask - PullRequest
0 голосов
/ 13 июня 2019

У меня есть большой (~ 180K ряд) фрейм данных, для которого

df.compute()

зависает при запуске dask с распределенным планировщиком в локальном режиме на AWS m5.12xlarge (98 ядер).Все работники остаются почти бездействующими. Однако

df.head(df.shape[0].compute(), -1)

завершается быстро, с хорошим использованием доступного ядра.

Логически вышеупомянутое должно быть эквивалентным.Что вызывает разницу?Есть ли какой-нибудь параметр, который я должен передать compute в первой версии, чтобы ускорить его?

1 Ответ

0 голосов
/ 16 июня 2019

Когда вы звоните .compute(), вы запрашиваете весь результат в вашем локальном процессе в виде кадра данных pandas. Если этот результат велик, он может не подходить. Вам нужен весь результат локально? Если нет, то, возможно, вы хотели .persist() вместо?

...