Apache Spark: связь между действием и работой, Spark UI - PullRequest
0 голосов
/ 23 октября 2018

Насколько я понимаю, до настоящего времени в spark работа отправляется всякий раз, когда действие вызывается в наборе данных / фрейме данных.Работа может быть далее разделена на этапы и задачи, которые я понимаю, как узнать количество этапов и задач.Ниже приведен мой маленький код

    val spark = SparkSession.builder().master("local").getOrCreate()


    val df = spark.read.json("/Users/vipulrajan/Downloads/demoStuff/data/rows/*.json").select("user_id", "os", "datetime", "response_time_ms")


    df.show()

    df.groupBy("user_id").count().show

Насколько я понимаю, он должен был представить одну работу в строке 4, когда я прочитал.один на первом шоу и один на втором шоу.Первые два предположения верны, но для второго показа он представляет 5 заданий.Я не могу понять почему.Ниже приведен скриншот моего пользовательского интерфейса

enter image description here

, на котором вы можете увидеть задания 0 для чтения json, задания 1 для первого шоу и 5 заданий длявторое шоу.Может кто-нибудь помочь мне понять, что это за работа в интерфейсе спарк?

1 Ответ

0 голосов
/ 08 ноября 2018

Добавьте что-то вроде df.groupBy("user_id").count().explain() , чтобы увидеть, что на самом деле скрыто под вашим последним show().

...