Работы glue etl - получить подпапки s3, используя create_dynamic_frame.from_options - PullRequest
1 голос
/ 10 марта 2020

Я создаю задание AWS Glue ETL, но я сталкиваюсь с некоторыми препятствиями при извлечении файлов.

Кажется, что следующий код получает файлы только в папке root 2017 и не дальше. Есть ли способ включить все подпапки и файлы в них?

dyf = glueContext.create_dynamic_frame.from_options(
    's3',
    {"paths": [
        's3://bucket/2017/'
        ]},
    "json",
    transformation_ctx = "dyf")

1 Ответ

0 голосов
/ 11 марта 2020

Нашел решение для этой проблемы, похоже, словарь принимает больше параметров, мне нужен был "recurse". Вы также можете исключить определенные шаблоны с помощью «исключений».

Источник https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws -glue-Programming-etl-connect-s3

dyf = glueContext.create_dynamic_frame.from_options(
    's3',
    {
        "paths": [
            's3://bucket/2017/'
        ],
        "recurse" : True
    },
    "json",
    transformation_ctx = "dyf")

...