Итак, у меня есть эта папка, назовем ее /data
.
И в нем есть разделы, например:
/data/partition1
, /data/partition2
.
Я читаю новые данные из kafka и представляю, что мне нужно только обновить /data/partition2
. Я делаю:
dataFrame
.write
.mode(SaveMode.Overwrite)
.partitionBy("date", "key")
.option("header", "true")
.format(format)
.save("/data")
и он успешно обновляет /data/partition2
, но /data/partition1
больше нет ... Как заставить SaveMode.Overwrite
в Spark не касаться разделов HDFS, которые не нужно обновлять?