У меня есть dask dataframe с 2700 разделами. Каждый раздел составляет около 1 млн строк. Я хочу найти все уникальные значения в одном из столбцов с функцией unique()
. Повысит ли это скорость, если я сделаю df.repartition
для этого набора данных, чтобы уменьшить количество разделов и увеличить размер раздела?