У меня есть программа, написанная для распараллеливания процесса, кэш был применен после определенных преобразований в датафреймах. Скажем так:
df1 = df.filter()
df3 = df1.join(df2, join_cond, "left")
df3.cache() #ex: it has col1, col2, col3, col4 columns
After cache, we have some other steps to take care:
#1
df4 = df3.select(df3.col1, df3.col2)
df4.filter(df3.col1 > 500).show()
#2
df5 = df3.select(df3.col3, df3.col4)
df5.filter(df3.col4 > 2000)
df3.unpersist()
Итак, в этом процессе, если возникнет какая-либо проблема или ошибка, нам придется разархивировать фрейм данных, или старый кэш будет уничтожен автоматически при повторном запуске программы.
Может Пожалуйста, помогите мне, как будет работать cache () , если в какой-то момент времени в программе возникнут сбои.
Спасибо