как узнать различную статистику искровых приложений - PullRequest
0 голосов
/ 18 октября 2018

Spark Job: // СЧИТЫВАНИЕ ДАННЫХ / ЗАГРУЗКА

val df1 = spark.sql("select colList from table1")
val df2 = spark.sql("select colList from table2")

// ОБРАБОТКА ДАННЫХ / ТРАНСФОРМАЦИЯ

val df1_filter = df1.filter("cond")
val df2_filter = df1.filter("cond")
val transformation1 = df1_filter.join(df2_filter,joinCondition)

// СОХРАНЕНИЕ ДАННЫХ / ЗАПИСЬ

transformation1.write.format("com.databricks.spark.csv").option("delimiter","|").option("quote", "\u0000").save(hdfs_location)

ВОПРОС: -Есть ли способ узнать приблизительное время, затраченное заданием на чтение, обработку и запись данных по отдельности.

причина запроса состоит в том, чтобы приблизительно узнать время, необходимое для набора данных большего размера.запустив задание на примере набора данных.

Ответы [ 2 ]

0 голосов
/ 19 октября 2018

вы можете увидеть план выполнения, запустив план объяснения.Но это не даст вам никакого представления о реальном времени выполнения.Это особенно сложно с объединением, которое зависит от многих вещей на большом наборе данных.После того, как задание завершено или запущено, вы можете проверить ход выполнения в Spark UI.

0 голосов
/ 19 октября 2018

Запустите его и посмотрите на Spark UI для SparkContext при запуске или через Spark History Server.

...