Question

Я хочу измерить время выполнения и профилировать структурированную потоковую передачу Pyspark из самого приложения. Например, я хочу выполнить скрипт на Python, используя в основном

from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType
import time   

if __name__ == "__main__":

    sc = SparkSession.builder.master('spark://localhost:7077').getOrCreate()
    df = sc.readStream.schema(pq_schema).parquet('../data/parquet')
    df.createOrReplaceTempView("vw_table")
    exec_query = sc.sql("""
            select sum(field_1), count(field_2), field_3 from vw_table group by field_3
    """)
    result_q = df_st.writeStream.outputMode("complete").format("console").start()
    result_q.awaitTermination()

Затем я скопировал бы файл в папку и проверил время каждого файла. Возможно ли это сделать из скрипта Python?

Профиль Pyspark Структурированное потоковое приложение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Профиль Pyspark Структурированное потоковое приложение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов