У меня тяжелая стадия в искре с ~ 8k задач, и это показывает хорошее распределение вычислений
Однако, это то, что я вижу вИсполнитель агрегирует метрики, если я сортирую по Task Time.Это минимальное время задачи
, и это максимум
Почему задачи сбалансированы с точки зрения времени ввода и выполнения, а исполнителей нет (то есть некоторые исполнители получают больше работы, чем другие).Есть ли способ избежать этого?
В частности, на этапе написания большого файла данных в hdfs с df.write.format("orc").partitionBy("date", "hour").mode(SaveMode.Overwrite).save(path)
, и я бегу на пряжу