Следующая команда
df.head(20)
берет данные только из первого раздела вашего фрейма данных, предполагая, что в нем не менее 20 строк.Обратите внимание, что потребуется целом первого раздела.То, какая именно работа требуется, чтобы это произошло, зависит, например, от определения df
, например: это может зависеть от большого количества входных данных для некоторой сложной операции groupby / shuffle и от того, с каким размером раздела вы работаете.
Вообще говоря, (py) Spark сильно оптимизирован для рабочих процессов, подобных SQL, и способен выполнять планирование SQL на высоком уровне для повышения производительности, тогда как оптимизация в Dask, как правило, является низкоуровневой, жертвуя при этом некоторой производительностью.определенные обстоятельства для гибкости (в Dask можно реализовать сложные рабочие процессы, которые невозможны или очень сложны в Spark).
Сказав все это, более подробная информация о том, что вы считаете медленным, может дать ответ с конкретными предложениями по улучшению производительности.