Question

Мне нужно записать Spark DataFrame в корзину S3, и он должен создать отдельный файл паркета для каждого раздела.

Вот мой код:

dynamicDataFrame = DynamicFrame.fromDF(
                       testDataFrame, glueContext , 
                       "dynamicDataFrame")

glueContext.write_dynamic_frame.from_options(
                  frame = dynamicDataFrame,
                  connection_type = "s3",  
                  connection_options = {
                            "path": "s3://BUCKET_NAME/DIR_NAME",
                             "partitionKeys": ["COL_NAME"]
                  },
                  format = "parquet"
 )

Когда я указываю "partitionKeys": ["COL_NAME"] , тогда Glue Job выполняется без ошибок, но не создает файл в S3.

И когда я удаляю эту опцию "partitionKeys", она создает 200 паркетных файлов в S3 (по умолчанию No Of Partition - 200). Но я хочу создать разделы на основе определенного столбца.

Итак, возможно ли создавать файлы паркетных файлов в S3 во время записи DF в S3?

Примечание. Я использую ресурсы AWS, то есть AWS Glue.

Sandeep Fatangare · Answer 1 · 21 марта 2019

R вы уверены, что столбец раздела содержит данные?

Нашли ли вы что-нибудь в логах клея

Можно ли записать разделенный DataFrame в корзину S3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можно ли записать разделенный DataFrame в корзину S3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы