Как сказал Сун Юй Вей, чтобы использовать короткое замыкание чтения hdfs, клиент (в данном случае pxf jvm) должен быть расположен вместе с датодами, которые содержат блоки. Это имело место в случае hawq, поскольку сегменты были размещены вместе с датодами, тогда как с помощью gpdb его наиболее вероятные сегменты не развертываются с кластером had oop.
Кроме того, алгоритм распределения работы, который использует hawq / pxf, принимает во внимание рассмотрение локальности данных для назначения работы (в данном случае чтения блоков hdfs) совместно расположенным сегментам hawq / агентам pxf, таким образом максимизируя вероятность короткого замыкания чтения hdfs. Распределение работы, которое использует gpdb / pxf, больше не делает этого и выполняет случайное распределение работы блоков данных hdfs по сегментам / pxf.
Если ваша архитектура развертывания содержит сегменты gpdb и блоки hdfs, возможно, стоит изменить распределение работы, чтобы учесть локальность данных для максимизации чтения короткого замыкания hdfs.