Я сделал кластер GPDB (5.18.0) и хотел загрузить некоторые локальные файлы паркета в GPDB.Как добиться этого?Как я знаю, gpload просто поддерживает обычную загрузку и загрузку файлов cvs.
Есть ли способ, даже не рекомендованный для этого?Спасибо!
Вы можете установить parquet-tools на всех серверах сегментов и использовать gpfdist и веб-таблицу на основе команд для извлечения данных о паркете. Внешняя таблица Greenplum позволяет запускать сценарии с серверов сегментов на сервер gpfdist.
gphdfs также можно использовать для загрузки данных Parquet в Greenplum. https://gpdb.docs.pivotal.io/580/admin_guide/external/g-hdfs-parquet-format.html
Какой у вас дистрибутив Hadoop?
Если вы используете GP 5.18, вам нужно использовать PXF в качестве механизма загрузки файлов паркета.Вот ссылка на обзор в документации:
https://gpdb.docs.pivotal.io/5180/pxf/overview_pxf.html
Там есть ссылки на то, как настроить PXF и фактически загрузить данные с помощью PXF.Проверьте раздел Доступ к файлам Hadoop - там есть раздел о паркете.
С уважением, Jim McCann Pivotal Software