Hadoop Distcp: входной размер больше выходного размера - PullRequest
0 голосов
/ 23 сентября 2019

Я копирую папку из одного пути в другой, в основном создавая резервную копию.Размер исходной (входной) папки составляет 5 ТБ.Я использую следующую команду distcp для копирования:

hadoop distcp -m 150 <source_folder_path> <destination_folder_path>
hadoop fs -du -s -h source_folder
hadoop fs -du -s -h destination_folder
hadoop fs -ls source_folder | wc -l
hadoop fs -ls destination_folder | wc -l

Это внутри того же кластера.Я не могу понять, почему моя входная папка составляет 5 ТБ, а выходная папка - только 1 ТБ.Работа успешно завершена без каких-либо ошибок.Также я вижу, что количество файлов одинаково на входе и выходе.Я не использую сжатие или что-то в этом процессе.Может кто-нибудь указать мне, почему это так.Версия Hadoop 2.7

...