Как загрузить локальные файлы паркета в GPDB? - PullRequest
1 голос
/ 17 мая 2019

Я сделал кластер GPDB (5.18.0) и хотел загрузить некоторые локальные файлы паркета в GPDB.Как добиться этого?Как я знаю, gpload просто поддерживает обычную загрузку и загрузку файлов cvs.

Есть ли способ, даже не рекомендованный для этого?Спасибо!

Ответы [ 3 ]

0 голосов
/ 17 мая 2019

Вы можете установить parquet-tools на всех серверах сегментов и использовать gpfdist и веб-таблицу на основе команд для извлечения данных о паркете. Внешняя таблица Greenplum позволяет запускать сценарии с серверов сегментов на сервер gpfdist.

0 голосов
/ 17 мая 2019

gphdfs также можно использовать для загрузки данных Parquet в Greenplum. https://gpdb.docs.pivotal.io/580/admin_guide/external/g-hdfs-parquet-format.html

Какой у вас дистрибутив Hadoop?

0 голосов
/ 17 мая 2019

Если вы используете GP 5.18, вам нужно использовать PXF в качестве механизма загрузки файлов паркета.Вот ссылка на обзор в документации:

https://gpdb.docs.pivotal.io/5180/pxf/overview_pxf.html

Там есть ссылки на то, как настроить PXF и фактически загрузить данные с помощью PXF.Проверьте раздел Доступ к файлам Hadoop - там есть раздел о паркете.

С уважением, Jim McCann Pivotal Software

...