Если вы делаете союзы или объединения, они могут заставить ваш план «дублироваться» с самого начала.
Поскольку искра не сохраняет промежуточные состояния (если вы не кэшируете) автоматически, она должна будет прочитатьисточники несколько раз
что-то вроде
1- df = Read ParquetFile1
2- dfFiltered = df.filter('active=1')
3- dfFiltered.union(df)
План, вероятно, будет выглядеть так: readParquetFIle1 -> union <- filter <- readParquetFIle1 </p>