Напечатайте значение на каждой итерации в PairRDD, чтобы увидеть, как это работает? - PullRequest
0 голосов
/ 22 апреля 2019

Как напечатать значение на каждой итерации в PairRDD, чтобы увидеть, как оно работает?

x = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
def f(x): return x
 def add(a, b): return a + str(b)
sorted(x.combineByKey(str, add, add).collect())
[('a', '11'), ('b', '1')]

В этом примере я хочу исследовать, как CombineBykey работает в init-combiner, функции объединения, функции слияния, печатая значение каждой итерации. Как это сделать? ищу ответ для всех пар

...