Question

У меня есть сценарий, в котором вычисления, по-видимому, не распределены равномерно, что можно увидеть на временной шкале событий этапа, на котором вычисления должны выполняться в одном исполнителе (а задание имеет в основном активную задачу)

Я уже пробовал

main_df.repartition(num_executors*number_of_cores)

Однако поведение все еще кажется, поскольку вся обработка выполняется в одном исполнителе вместо равномерно распределенного, как я могу мелодия или каковы лучшие практики для того, чтобы найти, как перераспределить, чтобы я мог лучше использовать параллелизм?

Время вычислений Pyspark не одинаково

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Время вычислений Pyspark не одинаково

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов