Ссылаясь на https://spark.apache.org/docs/1.6.2/programming-guide.html#performance-impact
Shuffle также генерирует большое количество промежуточных файлов на диске.Начиная с версии Spark 1.3 эти файлы сохраняются до тех пор, пока соответствующие RDD больше не используются и не будут собираться мусором.Это сделано для того, чтобы файлы shuffle не создавались заново, если пересчитывается происхождение
Я понимаю, почему эти файлы будут сохранены.Тем не менее, я не могу понять, являются ли эти промежуточные файлы общими для заданий?
Мои эксперименты показывают, что эти случайные файлы НЕ являются общими для заданий.Кто-нибудь может подтвердить?
Сценарий, о котором я говорю: `` `
val rdd1 = sc.text...
val rdd2 = sc.text...
val rdd3 = rdd1.join(rdd2)
// at this point shuffle takes place
//Now, if I do this again:
val rdd4 = rdd1.join(rdd2)
// will the shuffle files be reused? And I think I ve got the answer, which is know since the rdds do not share the lineage
` ``