Размер файла меняется после записи через карту, уменьшите работу - PullRequest
0 голосов
/ 20 мая 2018

Я написал tar-файл на HDFS через pyspark, используя saveAsHadoopFile.

когда я делаю hdfs dfs -du -s -h для записанных файлов, он показывает это в соотношении 1:14 размера файла и размера файла репликации.Через некоторое время размер файла увеличивается, и соотношение уменьшается до 1: 3 (желательно).

Проблема в том, что я могу скопировать файлы сразу после записи, но не могу распаковать файлы, так как это дает несоответствие длиныошибка. ссылка на стек с ошибкой однако через некоторое время, когда размер возвращается к реальному размеру, я могу выполнить distcp.

...