У меня есть AWS Работы по склеиванию ETL, выполняемые каждые 15 минут, при которых каждый раз генерируется 1 файл паркета в S3.
Мне нужно создать еще одно задание для запуска в конце каждого часа, чтобы объединить все 4 файла паркета. в файле S3 to 1 для одного паркета с использованием кода pyspark AWS Glue ETL.
Кто-нибудь пробовал? предложения и лучшие практики?
Заранее спасибо!