Мне нужно записать Spark DataFrame в корзину S3, и он должен создать отдельный файл паркета для каждого раздела.
Вот мой код:
dynamicDataFrame = DynamicFrame.fromDF(
testDataFrame, glueContext ,
"dynamicDataFrame")
glueContext.write_dynamic_frame.from_options(
frame = dynamicDataFrame,
connection_type = "s3",
connection_options = {
"path": "s3://BUCKET_NAME/DIR_NAME",
"partitionKeys": ["COL_NAME"]
},
format = "parquet"
)
Когда я указываю "partitionKeys": ["COL_NAME"] , тогда Glue Job выполняется без ошибок, но не создает файл в S3.
И когда я удаляю эту опцию "partitionKeys", она создает 200 паркетных файлов в S3 (по умолчанию No Of Partition - 200).
Но я хочу создать разделы на основе определенного столбца.
Итак, возможно ли создавать файлы паркетных файлов в S3 во время записи DF в S3?
Примечание. Я использую ресурсы AWS, то есть AWS Glue.