Преобразование и разделение больших файлов JSON на меньшие файлы Parquet - PullRequest
0 голосов
/ 01 июня 2018

У меня есть чуть более 1200 JSON-файлов в AWS S3, которые мне нужно преобразовать в Parquet и разбить на более мелкие файлы (я готовлю их для Redshift Spectrum).Я пытался создать лямбда-функцию, которая делает это для меня для каждого файла.Но выполнение функции занимает слишком много времени или занимает много памяти и поэтому заканчивается до завершения.Файлы около 3-6 ГБ.

Кстати.Я использую Python.

Я не хочу запускать EC2 для этого, так как на это уходит вечность.

Я хотел бы получить совет о том, как этого добиться.

1 Ответ

0 голосов
/ 01 июня 2018

AWS Glue полезен для такого рода задач.Вы можете создать связующее задание, чтобы преобразовать день формата json в формат паркета и сохранить его в корзину S3 по вашему выбору.https://aws.amazon.com/blogs/big-data/build-a-data-lake-foundation-with-aws-glue-and-amazon-s3/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...