Я хотел бы использовать эту новую функциональность: перезаписать определенный раздел без удаления всех данных в s3
Я использовал новый флаг (spark.sql.sources.partitionOverwriteMode="dynamic"
) и тестировал его локально из моей IDE, и он работал (я былвозможность перезаписать определенный раздел в s3), но когда я развернул его на hdp 2.6.5 с помощью spark 2.3.0, тот же код не создал папки s3, как ожидалось, папка вообще не создавалась, была создана только временная папка
Мой код:
df.write
.mode(SaveMode.Overwtite)
.partitionBy("day","hour")
.option("compression", "gzip")
.parquet(s3Path)