У меня есть фрейм данных pyspark, и я использую тот же фрейм данных для создания новых фреймов данных и объединения их в конце.
Например:
source_dataframe = spark.createDataFrame(rdd, schema).cache()
df1 = function1(source_dataframe)
df2 = function2(source_dataframe)
df3 = function3(source_dataframe)
df4 = function4(source_dataframe)
Каждая функция не зависит друг от друга и наконец, присоединяясь к ним, чтобы создать мой окончательный фрейм данных.
final_df = df1.join(df2, [id]).join(df3, [id]).join(df4, [id])
Есть ли способ в pyspark, чтобы я мог запускать все вышеуказанные функции параллельно, поскольку они независимы друг от друга? или Spark автоматически запускает их параллельно, поскольку они независимы друг от друга?
Любая помощь будет принята с благодарностью. Спасибо.