Сценарий Python Pyspark не выполняется для всего набора данных, но работает с одним файлом - PullRequest
2 голосов
/ 31 октября 2019

enter image description here Я написал скрипт pyspark для Python, который извлекает из данных определенные функции. скрипт отлично работает на одном файле .json и возвращает фрейм данных, содержащий все мои функции в качестве вывода. моя проблема в том, что мне нужно запустить скрипт сразу для всего набора данных (папка, содержащая мои файлы json). Кто-нибудь может предложить хороший способ сделать это? спасибо imagemy output features_dataframe">

пример кода:

spark= SparkSession.builder.appName('mySparkKPIs').master('local').getOrCreate()
finalDF = spark.read.json('final.json')
finalDF.createOrReplaceTempView("final")
######
treatment of different dataframes##"
F=df1.join(df2, on="num", how="inner")\
    .join(df3, on="num", how="inner")\
        .join(df4, on="num", how="inner")\
            .show()

1 Ответ

1 голос
/ 31 октября 2019

Вы можете использовать, как показано ниже:

finalDF = spark.read.json('/path/to/json/directory/*.json')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...