У меня вопрос о том, как лучше всего справиться с преобразованиями фреймов данных (df). Предположим, у меня есть основной df, и мне нужно соединить этот df с другими 3 df. Какой из приведенных ниже способов является лучшим (более эффективным c) для этого? Создать несколько файлов dfs или переназначить существующий?
1 - Один фрейм данных для каждого шага
df = spark.read.orc(file)
df2 = spark.read.orc(file2)
df3 = spark.read.orc(file3)
df4 = spark.read.orc(file4)
df5 = df.join(df2, df.col==df2.col, 'inner')
df6 = df5.join(df3, df5.col==df3.col, 'inner')
df7 = df6.join(df4, df6.col==df4.col, 'inner')
df7.write.orc(file)
2 - Переназначить существующему
df = spark.read.orc(file)
df2 = spark.read.orc(file2)
df3 = spark.read.orc(file3)
df4 = spark.read.orc(file4)
df = df.join(df2, df.col==df2.col, 'inner')
df = df.join(df3, df.col==df3.col, 'inner')
df = df.join(df4, df.col==df4.col, 'inner')
df.write.orc(file)