Я копирую папку из одного пути в другой, в основном создавая резервную копию.Размер исходной (входной) папки составляет 5 ТБ.Я использую следующую команду distcp для копирования:
hadoop distcp -m 150 <source_folder_path> <destination_folder_path>
hadoop fs -du -s -h source_folder
hadoop fs -du -s -h destination_folder
hadoop fs -ls source_folder | wc -l
hadoop fs -ls destination_folder | wc -l
Это внутри того же кластера.Я не могу понять, почему моя входная папка составляет 5 ТБ, а выходная папка - только 1 ТБ.Работа успешно завершена без каких-либо ошибок.Также я вижу, что количество файлов одинаково на входе и выходе.Я не использую сжатие или что-то в этом процессе.Может кто-нибудь указать мне, почему это так.Версия Hadoop 2.7