Я запускаю сценарий pyspark, где при каждом запуске сценария я сохраняю некоторые данные в корзину s3, и у меня есть этот код:
data.repartition(1).write.mode("overwrite").format("parquet").partitionBy('time_key').save( "s3://path/to/directory")
Он разбивается по ключу time_key, но в каждомвыполнить, но последний дамп данных перезаписывает предыдущие данные, а не добавляет раздел. Ключ time_key уникален для каждого запуска.
Это правильный код, если я хочу записывать данные в s3 и разделять по ключу времени при каждом запуске?