Вы также можете использовать команду getmerge Hadoop для объединения всех этих файлов part- *.
Это возможно только в том случае, если вы запускаете ваши сценарии Pig из оболочки Pig (а не из Java).
Это преимущество по сравнению с предлагаемым решением: поскольку вы по-прежнему можете использовать несколько редукторов для обработки данных, ваша работа может выполняться быстрее, особенно если каждый редуктор выводит несколько данных.
grunt> fs -getmerge <Pig output file> <local file>