Я написал скрипт pyspark для Python, который извлекает из данных определенные функции. скрипт отлично работает на одном файле .json и возвращает фрейм данных, содержащий все мои функции в качестве вывода. моя проблема в том, что мне нужно запустить скрипт сразу для всего набора данных (папка, содержащая мои файлы json). Кто-нибудь может предложить хороший способ сделать это? спасибо my output features_dataframe">
пример кода:
spark= SparkSession.builder.appName('mySparkKPIs').master('local').getOrCreate()
finalDF = spark.read.json('final.json')
finalDF.createOrReplaceTempView("final")
######
treatment of different dataframes##"
F=df1.join(df2, on="num", how="inner")\
.join(df3, on="num", how="inner")\
.join(df4, on="num", how="inner")\
.show()