У меня есть сценарий, в котором вычисления, по-видимому, не распределены равномерно, что можно увидеть на временной шкале событий этапа, на котором вычисления должны выполняться в одном исполнителе (а задание имеет в основном активную задачу)
![enter image description here](https://i.stack.imgur.com/12sVL.png)
Я уже пробовал
main_df.repartition(num_executors*number_of_cores)
Однако поведение все еще кажется, поскольку вся обработка выполняется в одном исполнителе вместо равномерно распределенного, как я могу мелодия или каковы лучшие практики для того, чтобы найти, как перераспределить, чтобы я мог лучше использовать параллелизм?