самый эффективный способ памяти объединить несколько паркетных файлов - PullRequest
0 голосов
/ 15 января 2020

У меня около 10 огромных паркетных файлов (каждый около 60 ~ 100 ГБ), одинакового формата и одинаковых разделов. Я хочу объединить их все - как это лучше всего сделать? У меня постоянно возникает проблема с памятью на aws, поэтому я надеюсь избежать чтения ВСЕХ данных. Спасибо!

Ответы [ 2 ]

0 голосов
/ 16 января 2020

Запустите на него гусеничный склеиватель и создайте внешнюю таблицу в Каталоге клея. Вы можете получить доступ ко всем данным из всех 10 файлов.

Если вы хотите создать один файл паркета, используйте для этого команду redshift unload. См. https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html

0 голосов
/ 15 января 2020

Является ли пункт назначения контейнером S3? Если это так, Firehose - это способ объединения файлов.

Добавление данных к объекту S3

...