Какое сжатие вы используете? С некоторыми кодеками это, безусловно, не будет работать. Например, кодек Lzop имеет заголовки в начале каждого файла, и поэтому, если вы просто присоединитесь к файлам, у них будут заголовки с вкраплениями внутри. Кодек Lzo (без завершающего 'p') не включает заголовки - и до вашего вопроса я не понимал, почему он существует. Я думаю, что есть вероятность, что эти части соединятся вместе.
Если вы можете обрабатывать свою работу в одном редукторе, вы можете это сделать. Или вы можете запустить его с меньшим количеством редукторов и не беспокоиться о комбинировании файлов, поскольку вы можете использовать каталог в качестве входных данных для вашего следующего задания.
Вы можете запустить последующее задание MR (IdentityMapper, IdentityReducer), которое объединит ваши выходные файлы, используя один редуктор.
Вы можете распаковать, а затем снова сжать.
hadoop dfs -cat output/* | lzop -d -c > full
Раньше я беспокоился об этом немного. Теперь я использую меньше редукторов и избегаю сжатия небольших и временных файлов.