У меня есть GLue ETL-задание , записанное в python, которое запускается каждый раз, когда файл загружается в указанную c папку на S3. Задание ETL записывает файлы паркета в указанный c S3 местоположение, я использую режим append .
вот код:
data_frame.write.mode("append").partitionBy(*column_list).parquet("s3://" + bucket + "/" + key)
Приведенный выше процесс записывает несколько файлов паркета, мне нужно получить весь паркет файл создается каждым процессом ETL.
Я не могу найти, как это сделать.
Я пытался дать им определенный префикс c, но мне не удалось.
Может ли кто-нибудь мне помочь?