pyspark, как сопоставить два rdd, чтобы что-то сделать? - PullRequest
0 голосов
/ 19 июня 2020

У меня есть два следующих rdds.

rdd1: {'f1':[2,3], 'f2':[3,4]}
rdd2: {'f1':[3,4], 'f2':[5,1]}

Я хочу вычислить два rdds aaccoding для их ключей.

def do_something(value_list_1,value_list_2):
    result = calculate(value_list_1,value_list_2)
    return result

Здесь ввод do_something похож на [2,3] и [3,4] на ключе f1.

Может должно быть так:

union(rdd1.values(),rdd2.values()).map(lambda (value_list1,value_list2):do_something(value_list_1, value_list_2))

Я новичок в Spark, надеюсь на помощь.

...