Поддерживает ли Greenplum PXF чтение короткого замыкания HDFS? - PullRequest
0 голосов
/ 22 апреля 2020

Интересно, может ли Greenplum PXF воспользоваться возможностью чтения короткого замыкания HDFS, когда мы размещаем pxf и датодан на одном хосте. Мы провели предварительный тест, однако, похоже, что pxf не использует чтение короткого замыкания. После поиска в Google почти ничего нет, поэтому мы не уверены, что что-то упустили. Мы используем Greenplum 6.4 (версия для сообщества), pxf 5.11.2 и CDH 6.3.

Любые ссылки, предложения или комментарии приветствуются.

Ответы [ 3 ]

1 голос
/ 22 апреля 2020

Как сказал Сун Юй Вей, чтобы использовать короткое замыкание чтения hdfs, клиент (в данном случае pxf jvm) должен быть расположен вместе с датодами, которые содержат блоки. Это имело место в случае hawq, поскольку сегменты были размещены вместе с датодами, тогда как с помощью gpdb его наиболее вероятные сегменты не развертываются с кластером had oop.

Кроме того, алгоритм распределения работы, который использует hawq / pxf, принимает во внимание рассмотрение локальности данных для назначения работы (в данном случае чтения блоков hdfs) совместно расположенным сегментам hawq / агентам pxf, таким образом максимизируя вероятность короткого замыкания чтения hdfs. Распределение работы, которое использует gpdb / pxf, больше не делает этого и выполняет случайное распределение работы блоков данных hdfs по сегментам / pxf.

Если ваша архитектура развертывания содержит сегменты gpdb и блоки hdfs, возможно, стоит изменить распределение работы, чтобы учесть локальность данных для максимизации чтения короткого замыкания hdfs.

1 голос
/ 22 апреля 2020

Спасибо, Стэнли и Шиврам. Мы планируем вернуть эту функцию для Greenplum PXF в будущем. Но на данный момент не поддерживается.

0 голосов
/ 22 апреля 2020

Старая версия PXF с hawq фактически находится в узлах данных и использует чтение при коротком замыкании. Текущий PXF изменился и теперь размещается на хостах сегмента Greenplum и действует как клиент hdfs. Я думаю, что вы можете настроить исходные коды pxf и настроить pxf на датодах с коротким замыканием. Однако вы ускоряете связь hdfs <-> pxf, но замедляете связь pxf <-> greenplum.

...