Три вещи, на которые я обычно обращаю внимание при настройке производительности distcp;
- количество картографов, используемых для операции distcp
Опция '-m' позволит вам указать количество используемых задач карты, так сказать, максимальное количество одновременных копий. Попробуйте запустить копию пару раз и постепенно увеличивайте это число, чтобы увидеть, что лучше всего подходит для вашего сценария.
Вы можете запустить задание DistCp с флагом «-strategy dynamic», который будет «динамически» отображать карты размеров, позволяя более быстрым или более отзывчивым узлам копировать больше данных, чем медленные или занятые узлы. Вы можете прочитать больше об этом в руководстве DistCp.
Похоже, вы уже экспериментировали с опцией '-bandwidth', но я хотел бы упомянуть об этом здесь, поскольку это, безусловно, важный фактор. Попробуйте увеличить это еще больше, если ваша сеть позволяет это.