Насколько я понимаю, до настоящего времени в spark работа отправляется всякий раз, когда действие вызывается в наборе данных / фрейме данных.Работа может быть далее разделена на этапы и задачи, которые я понимаю, как узнать количество этапов и задач.Ниже приведен мой маленький код
val spark = SparkSession.builder().master("local").getOrCreate()
val df = spark.read.json("/Users/vipulrajan/Downloads/demoStuff/data/rows/*.json").select("user_id", "os", "datetime", "response_time_ms")
df.show()
df.groupBy("user_id").count().show
Насколько я понимаю, он должен был представить одну работу в строке 4, когда я прочитал.один на первом шоу и один на втором шоу.Первые два предположения верны, но для второго показа он представляет 5 заданий.Я не могу понять почему.Ниже приведен скриншот моего пользовательского интерфейса
, на котором вы можете увидеть задания 0 для чтения json, задания 1 для первого шоу и 5 заданий длявторое шоу.Может кто-нибудь помочь мне понять, что это за работа в интерфейсе спарк?