Spark: сбалансированные задачи, но несбалансированные исполнители - PullRequest
0 голосов
/ 04 января 2019

У меня тяжелая стадия в искре с ~ 8k задач, и это показывает хорошее распределение вычислений

enter image description here

Однако, это то, что я вижу вИсполнитель агрегирует метрики, если я сортирую по Task Time.Это минимальное время задачи

enter image description here

, и это максимум

enter image description here

Почему задачи сбалансированы с точки зрения времени ввода и выполнения, а исполнителей нет (то есть некоторые исполнители получают больше работы, чем другие).Есть ли способ избежать этого?

В частности, на этапе написания большого файла данных в hdfs с df.write.format("orc").partitionBy("date", "hour").mode(SaveMode.Overwrite).save(path), и я бегу на пряжу

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...