Присвоение данных узлам Spark Cluster на основе свойства - PullRequest
0 голосов
/ 06 мая 2019

Я новичок в Spark.Я пытаюсь выполнить некоторую операцию над набором геометрических многоугольников в Spark.Время выполнения алгоритма прямо пропорционально площади многоугольника.Я хотел бы знать, есть ли способ попросить Spark обработать смесь полигонов с различными значениями площади в узле.

Если данные многоугольника не разделены должным образом и один узел получает несколько больших многоугольников, в то время как другой узел получает меньшие, тогда более ранний узел может стать узким местом.Вся задача состоит в том, чтобы избежать этого.

Я планирую сгенерировать случайное число и назначить его каждому полигону и разделить данные, заданные этим столбцом, в надежде, что полигоны будут случайным образом назначены каждому узлу.Тем не менее, я не уверен в этом подходе, также мне интересно, смогу ли я сделать лучше, чем случайный, и назначить множество полигонов со смешанными значениями площади для узла.

Я использую pyspark для работы.

...