Загрузите файлы Parquet в Redshift - PullRequest
       20

Загрузите файлы Parquet в Redshift

0 голосов
/ 06 сентября 2018

У меня есть куча файлов Parquet на S3, я хочу загрузить их в красное смещение наиболее оптимальным способом.

Каждый файл разбит на несколько кусков ...... Какой самый оптимальный способ загрузки данных из S3 в Redshift?

Кроме того, как вы создаете определение целевой таблицы в Redshift? Есть ли способ вывести схему из Parquet и создать таблицу программно? Я считаю, что есть способ сделать это с помощью спектра Redshift, но я хочу знать, можно ли это сделать в сценариях.

Ценю вашу помощь!

Я рассматриваю все инструменты AWS, такие как Glue, Lambda и т. Д., Чтобы сделать это наиболее оптимальным способом (с точки зрения производительности, безопасности и стоимости).

1 Ответ

0 голосов
/ 06 сентября 2018

Команда Amazon Redshift COPY может изначально загружать файлы Parquet с помощью параметра:

FORMAT AS PARQUET

См .: Amazon Redshift теперь может копировать из форматов файлов паркета и ORC

Таблица должна быть предварительно создана; он не может быть создан автоматически.

Также обратите внимание на КОПИЯ из столбцовых форматов данных - Amazon Redshift :

COPY вставляет значения в столбцы целевой таблицы в том же порядке , что и столбцы в столбцовых файлах данных. Количество столбцов в целевой таблице и количество столбцов в файле данных должны совпадать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...