Увеличивает ли размер раздела dask скорость? - PullRequest
0 голосов
/ 30 октября 2019

У меня есть dask dataframe с 2700 разделами. Каждый раздел составляет около 1 млн строк. Я хочу найти все уникальные значения в одном из столбцов с функцией unique(). Повысит ли это скорость, если я сделаю df.repartition для этого набора данных, чтобы уменьшить количество разделов и увеличить размер раздела?

1 Ответ

0 голосов
/ 03 ноября 2019

Ответ «Возможно».

Производительность зависит от многих вещей. Я рекомендую попробовать и посмотреть, что работает. Вы также можете прочитать нашу страницу документации Understanding Performance , на которой есть несколько советов о том, как понять и измерить производительность.

...