Можно ли указывать на несколько кластеров Hadoop одновременно из Greenplum с помощью GPHDFS? - PullRequest
0 голосов
/ 02 мая 2019

У нас есть среда Greenplum, и в настоящее время мы настроили файлы gphdf для включения записи данных в HDFS из Greenplum. Существует требование записи в другую HDFS для другого пользователя. Можно ли настроить разные конфигурации gphdf для разных пользователей, чтобы в зависимости от пользователя данные записывались в соответствующую настроенную HDFS?

Ожидаемый результат: От пользователя 1, когда я создаю WRITABLE EXTERNAL table, атрибут Location будет выглядеть так: РАСПОЛОЖЕНИЕ (‘gphdfs: // hdfs_1_for_user1: 8020 / path /’)

От пользователя 2, когда я создаю WRITABLE EXTERNAL таблицу, атрибут Location будет выглядеть так: РАСПОЛОЖЕНИЕ (‘gphdfs: // hdfs_2_for_user2: 8020 / path /’)

1 Ответ

0 голосов
/ 02 мая 2019

Если вы используете версию 5+ Greenplum, вы можете использовать PXF для доступа к кластерам Hadoop. В PXF вы можете создавать различные конфигурации серверов, чтобы каждый пользователь мог получить доступ к своему кластеру HDFS.

Например:

CREATE EXTERNAL TABLE my_table_on_hdfs_cluster_1 (...) 
LOCATION('pxf://my/path/on/hdfs/cluster/1?PROFILE=hdfs:text&SERVER=hdfs1')
FORMAT 'TEXT';

и для второго кластера:

CREATE EXTERNAL TABLE my_table_on_hdfs_cluster_2 (...) 
LOCATION('pxf://my/path/on/hdfs/cluster/2?PROFILE=hdfs:text&SERVER=hdfs2')
FORMAT 'TEXT';

Однако для доступа к каждому кластеру HDFS вам потребуются разные внешние таблицы.

Вы можете найти дополнительную информацию для PXF здесь: https://gpdb.docs.pivotal.io/5180/pxf/access_hdfs.html

...