Question

Я написал скрипт pyspark для Python, который извлекает из данных определенные функции. скрипт отлично работает на одном файле .json и возвращает фрейм данных, содержащий все мои функции в качестве вывода. моя проблема в том, что мне нужно запустить скрипт сразу для всего набора данных (папка, содержащая мои файлы json). Кто-нибудь может предложить хороший способ сделать это? спасибо my output features_dataframe">

пример кода:

spark= SparkSession.builder.appName('mySparkKPIs').master('local').getOrCreate()
finalDF = spark.read.json('final.json')
finalDF.createOrReplaceTempView("final")
######
treatment of different dataframes##"
F=df1.join(df2, on="num", how="inner")\
    .join(df3, on="num", how="inner")\
        .join(df4, on="num", how="inner")\
            .show()

moasifk · Answer 1 · 31 октября 2019

Вы можете использовать, как показано ниже:

finalDF = spark.read.json('/path/to/json/directory/*.json')

Сценарий Python Pyspark не выполняется для всего набора данных, но работает с одним файлом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сценарий Python Pyspark не выполняется для всего набора данных, но работает с одним файлом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов