Я написал tar-файл на HDFS через pyspark, используя saveAsHadoopFile.
когда я делаю hdfs dfs -du -s -h для записанных файлов, он показывает это в соотношении 1:14 размера файла и размера файла репликации.Через некоторое время размер файла увеличивается, и соотношение уменьшается до 1: 3 (желательно).
Проблема в том, что я могу скопировать файлы сразу после записи, но не могу распаковать файлы, так как это дает несоответствие длиныошибка. ссылка на стек с ошибкой однако через некоторое время, когда размер возвращается к реальному размеру, я могу выполнить distcp.