Я новичок в Spark.Я пытаюсь выполнить некоторую операцию над набором геометрических многоугольников в Spark.Время выполнения алгоритма прямо пропорционально площади многоугольника.Я хотел бы знать, есть ли способ попросить Spark обработать смесь полигонов с различными значениями площади в узле.
Если данные многоугольника не разделены должным образом и один узел получает несколько больших многоугольников, в то время как другой узел получает меньшие, тогда более ранний узел может стать узким местом.Вся задача состоит в том, чтобы избежать этого.
Я планирую сгенерировать случайное число и назначить его каждому полигону и разделить данные, заданные этим столбцом, в надежде, что полигоны будут случайным образом назначены каждому узлу.Тем не менее, я не уверен в этом подходе, также мне интересно, смогу ли я сделать лучше, чем случайный, и назначить множество полигонов со смешанными значениями площади для узла.
Я использую pyspark для работы.