Профиль Pyspark Структурированное потоковое приложение - PullRequest
0 голосов
/ 08 ноября 2019

Я хочу измерить время выполнения и профилировать структурированную потоковую передачу Pyspark из самого приложения. Например, я хочу выполнить скрипт на Python, используя в основном

from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType
import time   

if __name__ == "__main__":

    sc = SparkSession.builder.master('spark://localhost:7077').getOrCreate()
    df = sc.readStream.schema(pq_schema).parquet('../data/parquet')
    df.createOrReplaceTempView("vw_table")
    exec_query = sc.sql("""
            select sum(field_1), count(field_2), field_3 from vw_table group by field_3
    """)
    result_q = df_st.writeStream.outputMode("complete").format("console").start()
    result_q.awaitTermination()  

Затем я скопировал бы файл в папку и проверил время каждого файла. Возможно ли это сделать из скрипта Python?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...