Если у вас достаточно памяти для хранения данных, использование dataFrame.cache()
будет быстрее, чем запись на диск в виде Parquet и использование TempView для доступа к ним.TempView потенциально может перейти на диск N раз.
Если у вас недостаточно памяти, я бы проверил и посмотрел, есть ли разница между сохранением на уровне хранения MEMORY_AND_DISK и записью в Parquet.Мне трудно представить, что формат диска, который использует Spark, будет менее эффективнее, чем Parquet (потому что почему бы просто не использовать Parquet в этом случае?), Но я научился быть осторожным с моими предположениями, когдаоптимизация кода Spark.