В соответствии с рекомендациями Dask для фреймов данных https://docs.dask.org/en/latest/dataframe-best-practices.html, для данных, помещаемых в ОЗУ, используйте Pandas, вероятно, это будет более эффективным.
Если вы решите использовать Dask, избегайте очень больших разделов,Если вы меняете количество разделов вручную, учитывайте доступную память и ядра. Например, машине с 100 ГБ и 10 ядрами обычно требуются разделы в диапазоне 1 ГБ.
Начиная с Dask 2.0.0 вы можете сделать это, используя что-то вроде: df.repartition (partition_size = "100MB"))
Другие советы, которые я могу предложить, если вы решите придерживаться Dask, это настроить локального клиента, где вы сможете воспользоваться Dask Distributed http://distributed.dask.org/en/latest/client.html. Оттуда избегайте полной перестановки данных и сокращайте доВы можете перед вычислением в Панд.