dfs -cat
должен перемещать все данные через этот единственный процесс с плохим параллелизмом.
Что я сделал, так это запустил потоковое задание только для картографических данных, которое сбрасывает, чтобы очистить место на каждом диске, а затем выполнить rsync на одну машину. Обе части хорошо справляются с полной работой кластера; и поскольку rsync прекрасно идемпотентен, вы можете запустить его одновременно с hdfs-> local part.