Question

У меня есть чуть более 1200 JSON-файлов в AWS S3, которые мне нужно преобразовать в Parquet и разбить на более мелкие файлы (я готовлю их для Redshift Spectrum).Я пытался создать лямбда-функцию, которая делает это для меня для каждого файла.Но выполнение функции занимает слишком много времени или занимает много памяти и поэтому заканчивается до завершения.Файлы около 3-6 ГБ.

Кстати.Я использую Python.

Я не хочу запускать EC2 для этого, так как на это уходит вечность.

Я хотел бы получить совет о том, как этого добиться.

Abhishek Upadhyaya · Answer 1 · 01 июня 2018

AWS Glue полезен для такого рода задач.Вы можете создать связующее задание, чтобы преобразовать день формата json в формат паркета и сохранить его в корзину S3 по вашему выбору.https://aws.amazon.com/blogs/big-data/build-a-data-lake-foundation-with-aws-glue-and-amazon-s3/

Преобразование и разделение больших файлов JSON на меньшие файлы Parquet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Преобразование и разделение больших файлов JSON на меньшие файлы Parquet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы