AWS Glue: PySpark меняет имя созданных файлов паркета для каждого задания ETL на s3 в режиме добавления - PullRequest
0 голосов
/ 04 мая 2020

У меня есть GLue ETL-задание , записанное в python, которое запускается каждый раз, когда файл загружается в указанную c папку на S3. Задание ETL записывает файлы паркета в указанный c S3 местоположение, я использую режим append .

вот код:

data_frame.write.mode("append").partitionBy(*column_list).parquet("s3://" + bucket + "/" + key)

Приведенный выше процесс записывает несколько файлов паркета, мне нужно получить весь паркет файл создается каждым процессом ETL.

Я не могу найти, как это сделать.

Я пытался дать им определенный префикс c, но мне не удалось.

Может ли кто-нибудь мне помочь?

...