От AWS Glue Job, запись файлов (паркет и JSON формат) до S3, но многие файлы создаются с ZERO KB - PullRequest
0 голосов
/ 13 февраля 2020

Ниже приведен пример фрагмента из моего скрипта работы Glue:

datasink2 = glueContext.write_dynamic_frame.from_options(frame=applyUuid_dynamic, connection_type="s3",
                                                         connection_options={"path": "s3://samplexx-curated"},
                                                         format="parquet", transformation_ctx="datasink2")

datasink4 = glueContext.write_dynamic_frame.from_options(frame=applyUuid_dynamic, connection_type="s3",
                                                         connection_options={"path": "s3://samplexx-staging"},
                                                         format="json", transformation_ctx="datasink4")

Здесь возникает вопрос, почему некоторые файлы с нулевым КБ идут в эти сегменты? Как избежать записи файлов нулевого килобайта в корзину из склеенного задания?

...