Для заданного набора U
, который хранится в СДР с именем rdd
.
Каков рекомендуемый способ объединения любых заданных СДР rdd_not_set
и rdd
таким образом, чтобы результирующий rdd
также является набором.
rdd = sc.union([rdd, U])
rdd = rdd.reduceBykey(reduce_func)
Например: rdd = sc.parallelize([(1,2), (2,3)])
и rdd_not_set = sc.parallelize([(1,4), (3,4)])
, и в результате final_rdd = sc.parallelize([(1,4), (2,3), (3,4)])
Наивное решение заключается в выполнении union
, а затем reduceByKey
, что будеточень неэффективно, так как rdd
будет огромного размера.