как проверить работоспособность apache spark Job - PullRequest
0 голосов
/ 26 сентября 2018

Я установил Apache Spark 2.3.1 и мне нужно проверить, какой скрипт эффективен

Вопросы:

1.Как я могу контролировать выполнение скриптов Apache Spark?

2. Какой из этих сценариев эффективен?

rdd = sc.textFile("Readme.txt")

1:

rdd.flatMap(x => x.split(" ")).countByValue()

2:

words = rdd.flatMap(lambda x: x.split(" "))
result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y)

1 Ответ

0 голосов
/ 26 сентября 2018

Используйте spark web ui, он содержит информацию, которая вам понадобится для мониторинга производительности с точки зрения времени, статистики исполнителя, статистики этапа, статистики задачи, статистики ресурса и т. Д.

...