AWS клей JSON предел - PullRequest
       11

AWS клей JSON предел

0 голосов
/ 20 ноября 2018

Попытка использовать AWS Glue для автоматического сканирования и каталогизации файлов JSON в корзине S3, как описано здесь:

https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html

Файлы размером менее 1 МБ успешно каталогизируются, однако файлы размером более 1 МБне могут быть каталогизированы и классифицируются как Unknown.

Перепробовал подход, указанный здесь: AWS Glue Crawler Классифицирует файл json как НЕИЗВЕСТНЫЙ

Однако не имеет значения.

Хотелось бы узнать, есть ли у кого-нибудь подобные проблемы?

1 Ответ

0 голосов
/ 26 ноября 2018

У меня такая же проблема.Вы пытались сгладить данные в ORC или подобное?Кажется, есть ограничение на вложенный JSON определенного размера, даже с пользовательскими классификаторами.Или вы можете изменить свой JSON с

[
   { .... },
   { .....},
]

на

{ ... }
{ ... }

, который должен работать в Glue.

Это скрипт Python, который я запустил, чтобы получить это преобразование(работал с JSON на 200 мб):

import json
with open('./Data/data.json') as f:
    data = json.load(f)
with open('./Data/data_flat.json', 'w') as file:
    for entry in data['locations']:
        file.write(json.dumps(entry)+'\n')

Теперь клей правильно Классифицирует его!

...