Я делаю простое назначение в Apache Spark, используя Python.Допустим, у меня есть СДР:
[('python', 1), ('spark', 1), ('context', 1), ('create', 1), ('scala', 1), ('parallel', 1), ('operation', 1), ('apache', 1), ('partition', 1), ('lambda', 1), ('class', 1), ('rdd', 1)]
И я хочу посчитать количество вхождений буквы «С» в СДР.Используя «карту», я бы сделал это так:
rdd = sc.parallelize([('python', 1), ('spark', 1), ('context', 1), ('create', 1), ('scala', 1), ('parallel', 1), ('operation', 1), ('apache', 1), ('partition', 1), ('lambda', 1), ('class', 1), ('rdd', 1)])
rdd.map(lambda x: x[0].count('s')).sum()
Теперь я должен сделать то же самое, но с помощью функции «агрегат».Но я понятия не имею, как это сделать.Есть идеи?