Объединение с существующим RDD, установленным в pyspark - PullRequest
0 голосов
/ 29 сентября 2018

Для заданного набора U, который хранится в СДР с именем rdd.

Каков рекомендуемый способ объединения любых заданных СДР rdd_not_set и rdd таким образом, чтобы результирующий rddтакже является набором.

rdd = sc.union([rdd, U])
rdd = rdd.reduceBykey(reduce_func)

Например: rdd = sc.parallelize([(1,2), (2,3)]) и rdd_not_set = sc.parallelize([(1,4), (3,4)]), и в результате final_rdd = sc.parallelize([(1,4), (2,3), (3,4)])

Наивное решение заключается в выполнении union, а затем reduceByKey, что будеточень неэффективно, так как rdd будет огромного размера.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...