У меня есть большой (~ 180K ряд) фрейм данных, для которого
df.compute()
зависает при запуске dask с распределенным планировщиком в локальном режиме на AWS m5.12xlarge (98 ядер).Все работники остаются почти бездействующими. Однако
df.head(df.shape[0].compute(), -1)
завершается быстро, с хорошим использованием доступного ядра.
Логически вышеупомянутое должно быть эквивалентным.Что вызывает разницу?Есть ли какой-нибудь параметр, который я должен передать compute
в первой версии, чтобы ускорить его?