Spark Job: // СЧИТЫВАНИЕ ДАННЫХ / ЗАГРУЗКА
val df1 = spark.sql("select colList from table1")
val df2 = spark.sql("select colList from table2")
// ОБРАБОТКА ДАННЫХ / ТРАНСФОРМАЦИЯ
val df1_filter = df1.filter("cond")
val df2_filter = df1.filter("cond")
val transformation1 = df1_filter.join(df2_filter,joinCondition)
// СОХРАНЕНИЕ ДАННЫХ / ЗАПИСЬ
transformation1.write.format("com.databricks.spark.csv").option("delimiter","|").option("quote", "\u0000").save(hdfs_location)
ВОПРОС: -Есть ли способ узнать приблизительное время, затраченное заданием на чтение, обработку и запись данных по отдельности.
причина запроса состоит в том, чтобы приблизительно узнать время, необходимое для набора данных большего размера.запустив задание на примере набора данных.