Я установил Apache Spark 2.3.1 и мне нужно проверить, какой скрипт эффективен
Вопросы:
1.Как я могу контролировать выполнение скриптов Apache Spark?
2. Какой из этих сценариев эффективен?
rdd = sc.textFile("Readme.txt")
1:
rdd.flatMap(x => x.split(" ")).countByValue()
2:
words = rdd.flatMap(lambda x: x.split(" "))
result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y)