Я извлекаю из того, что вы сказали, что вы хотите relative frequency
каждого уникального члена СДР.
from operator import add
rdd1 = sc.parallelize([1,2,3,4,1,5,7,3])
count = rdd1.count()
rdd2=rdd1
.map(lambda x: (x, 1)) # [(1,1),(2,1),(3,1),(4,1),(1,1),(5,1),(7,1),(3,1)]
.reduceByKey(add) # [(1,2),(2,1),(3,2),(4,1),(5,1),(7,1)]
.mapValues( lambda vSum : vSum / count )
rdd2.collect()
# [(1,2/8),(2,1/8),(3,2/8),(4,1/8),(5,1/8),(7,1/8)]