Question

Для заданного набора U, который хранится в СДР с именем rdd.

Каков рекомендуемый способ объединения любых заданных СДР rdd_not_set и rdd таким образом, чтобы результирующий rddтакже является набором.

rdd = sc.union([rdd, U])
rdd = rdd.reduceBykey(reduce_func)

Например: rdd = sc.parallelize([(1,2), (2,3)]) и rdd_not_set = sc.parallelize([(1,4), (3,4)]), и в результате final_rdd = sc.parallelize([(1,4), (2,3), (3,4)])

Наивное решение заключается в выполнении union, а затем reduceByKey, что будеточень неэффективно, так как rdd будет огромного размера.

Объединение с существующим RDD, установленным в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Объединение с существующим RDD, установленным в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов