Объедините несколько файлов паркета в один файл паркета в AWS S3, используя AWS Клей ETL python spark (pyspark) - PullRequest
0 голосов
/ 24 марта 2020

У меня есть AWS Работы по склеиванию ETL, выполняемые каждые 15 минут, при которых каждый раз генерируется 1 файл паркета в S3.

Мне нужно создать еще одно задание для запуска в конце каждого часа, чтобы объединить все 4 файла паркета. в файле S3 to 1 для одного паркета с использованием кода pyspark AWS Glue ETL.

Кто-нибудь пробовал? предложения и лучшие практики?

Заранее спасибо!

1 Ответ

0 голосов
/ 25 марта 2020

хорошо ... простым вариантом было бы преобразовать его в искровой фрейм данных

1) прочитать паркет в динамический c кадр (или еще лучше, просто прочитать его как искровой фрейм данных) 2) sourcedf.toDF (). передел (1)

...