Можно ли записать разделенный DataFrame в корзину S3? - PullRequest
0 голосов
/ 17 марта 2019

Мне нужно записать Spark DataFrame в корзину S3, и он должен создать отдельный файл паркета для каждого раздела.

Вот мой код:

dynamicDataFrame = DynamicFrame.fromDF(
                       testDataFrame, glueContext , 
                       "dynamicDataFrame")

glueContext.write_dynamic_frame.from_options(
                  frame = dynamicDataFrame,
                  connection_type = "s3",  
                  connection_options = {
                            "path": "s3://BUCKET_NAME/DIR_NAME",
                             "partitionKeys": ["COL_NAME"]
                  },
                  format = "parquet"
 )

Когда я указываю "partitionKeys": ["COL_NAME"] , тогда Glue Job выполняется без ошибок, но не создает файл в S3.

И когда я удаляю эту опцию "partitionKeys", она создает 200 паркетных файлов в S3 (по умолчанию No Of Partition - 200). Но я хочу создать разделы на основе определенного столбца.

Итак, возможно ли создавать файлы паркетных файлов в S3 во время записи DF в S3?

Примечание. Я использую ресурсы AWS, то есть AWS Glue.

1 Ответ

1 голос
/ 21 марта 2019

R вы уверены, что столбец раздела содержит данные?

Нашли ли вы что-нибудь в логах клея

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...