Время вычислений Pyspark не одинаково - PullRequest
0 голосов
/ 25 марта 2020

У меня есть сценарий, в котором вычисления, по-видимому, не распределены равномерно, что можно увидеть на временной шкале событий этапа, на котором вычисления должны выполняться в одном исполнителе (а задание имеет в основном активную задачу)

enter image description here

Я уже пробовал

main_df.repartition(num_executors*number_of_cores)

Однако поведение все еще кажется, поскольку вся обработка выполняется в одном исполнителе вместо равномерно распределенного, как я могу мелодия или каковы лучшие практики для того, чтобы найти, как перераспределить, чтобы я мог лучше использовать параллелизм?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...