Я хочу измерить время выполнения и профилировать структурированную потоковую передачу Pyspark из самого приложения. Например, я хочу выполнить скрипт на Python, используя в основном
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType
import time
if __name__ == "__main__":
sc = SparkSession.builder.master('spark://localhost:7077').getOrCreate()
df = sc.readStream.schema(pq_schema).parquet('../data/parquet')
df.createOrReplaceTempView("vw_table")
exec_query = sc.sql("""
select sum(field_1), count(field_2), field_3 from vw_table group by field_3
""")
result_q = df_st.writeStream.outputMode("complete").format("console").start()
result_q.awaitTermination()
Затем я скопировал бы файл в папку и проверил время каждого файла. Возможно ли это сделать из скрипта Python?