Как создать RDD, добавив соответствующие элементы 2 RDD в python - PullRequest
0 голосов
/ 10 июля 2020

Итак, у меня есть 2 RDD (скажем, RDD1 и RDD2), каждый со списком чисел. Два списка имеют одинаковый размер. Я хочу создать RDD3, где каждый элемент в RDD3 является добавлением соответствующих элементов RDD1 и RDD2. Как мне сделать это в python с помощью функций pyspark?

1 Ответ

1 голос
/ 10 июля 2020

Если список не слишком велик, то следующее может работать. Сообщите мне, работает ли это или у вас есть другие предложения

rdd1 = sc.parallelize([100,200,300])
rdd2 = sc.parallelize([101,202,303])
print(rdd1.collect())
print(rdd2.collect())
# [100, 200, 300]
# [101, 202, 303]
output = []
for i, element in enumerate(rdd1.collect()):
  output.append(element + rdd2.collect()[i])
rdd3 = sc.parallelize(output)
print(rdd3.collect())
# [201, 402, 603]
...