создание паркетных файлов с именем раздела - PullRequest
0 голосов
/ 09 мая 2019
    datasink = glueContext.write_dynamic_frame.from_options(
        frame = f_repartition,
        connection_type = "s3",
        connection_options = {
            "path": "s3://"+ coreBucket +"/xxxx/input",
            "partitionKeys": ['api']
        },
        format = "parquet",
        transformation_ctx = "datasink")

Я хочу сгенерировать один файл для каждого номера API, но его папка api для генерации в n-файле принадлежит n тем же именам api: api = 0504500037 / part-00000-ac3e86e7-ac8b-4c0c-9d51-d8772e90abdc.c000.snappy. паркет вроде этого, но я хочу создать API = 0504500037.snappy.parquet

...