Как читать в тоннах Json сегментов, используя glueContext.create_dynamic_frame_from_options - PullRequest
0 голосов
/ 08 января 2020

очень надеюсь, что кто-нибудь сможет мне помочь с этим ..

Я хочу прочитать все json файлы по этому пути "s3: //.../year=2019/month=11/day = 06 / "как мне сделать это с glueContext.create_dynamic_frame_from_options?

если я сделаю glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"paths": [ "s3://.../year=2019/month=11/day=06/" ]}), это не сработает.

Я должен был перечислить все отдельные подпрограммы, я чувствую должен быть лучший способ. Например: я должен был сделать это df0 = glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"paths": [ "s3://.../year=2019/month=11/day=06/hour=20/minute=12/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=13/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=14/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=15/" ,"s3://.../year=2019/month=11/day=06/hour=20/minute=16/" ....]})

У меня есть тысячи вложенных ведер для списка, поэтому я действительно ценю любые рекомендации о том, как я могу сделать мою жизнь проще. спасибо !!

Ответы [ 2 ]

0 голосов
/ 10 января 2020

Я нашел решение -> используя опцию "recurse" при чтении большой группы файлов.

0 голосов
/ 09 января 2020

Вы захотите использовать сканер клея для создания таблиц в каталоге данных клея. Затем вы можете использовать таблицы с помощью

glueContext.create_dynamic_frame.from_catalog(
    database="mydb",
    table_name="mytable")

. В этом блоге AWS объясняется, как работать с разделенными данными в Glue https://aws.amazon.com/blogs/big-data/work-with-partitioned-data-in-aws-glue/

...