Question

Я сделал кластер GPDB (5.18.0) и хотел загрузить некоторые локальные файлы паркета в GPDB.Как добиться этого?Как я знаю, gpload просто поддерживает обычную загрузку и загрузку файлов cvs.

Есть ли способ, даже не рекомендованный для этого?Спасибо!

Sung Yu-wei · Answer 1 · 17 мая 2019

Вы можете установить parquet-tools на всех серверах сегментов и использовать gpfdist и веб-таблицу на основе команд для извлечения данных о паркете. Внешняя таблица Greenplum позволяет запускать сценарии с серверов сегментов на сервер gpfdist.

frankgh · Answer 2 · 17 мая 2019

gphdfs также можно использовать для загрузки данных Parquet в Greenplum. https://gpdb.docs.pivotal.io/580/admin_guide/external/g-hdfs-parquet-format.html

Какой у вас дистрибутив Hadoop?

Jim · Answer 3 · 17 мая 2019

Если вы используете GP 5.18, вам нужно использовать PXF в качестве механизма загрузки файлов паркета.Вот ссылка на обзор в документации:

https://gpdb.docs.pivotal.io/5180/pxf/overview_pxf.html

Там есть ссылки на то, как настроить PXF и фактически загрузить данные с помощью PXF.Проверьте раздел Доступ к файлам Hadoop - там есть раздел о паркете.

С уважением, Jim McCann Pivotal Software

Как загрузить локальные файлы паркета в GPDB?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как загрузить локальные файлы паркета в GPDB?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы