«Hdfs dfs -du» против «hdfs dfs -count», различия в ожидании одинаковых результатов - PullRequest
0 голосов
/ 17 января 2020

Почему hdfs dfs -du -s и hdfs dfs -count -v (предположительно, те же байты в поле CONTENT_SIZE) (близко, но) не совпадают значения?


Пример

# at user1@borderNode1
hdfs dfs -count -v  "hdfs://XYZ/apps/hive/warehouse/p_xx_db.db"
#   DIR_COUNT   FILE_COUNT       CONTENT_SIZE PATHNAME
#        9087      1610048    141186781009632 hdfs://XYZ/apps/hive/warehouse/p_xx_db.db
hdfs dfs -du -s  "hdfs://XYZ/apps/hive/warehouse/p_xx_db.db"
#141186781010380  hdfs://XYZ/apps/hive/warehouse/p_xx_db.db

Значение 141186781009632 не равно 141186781010380.

Разница 141186781010380-141186781009632=748 меньше размера блока (134217728 в примере) ... так что возможно, один является точным, а другой нет, но я не вижу такого рода документации на oop.


PS: без подсказок здесь ни в руководстве,

  • hdfs dfs -count: "Подсчитать количество ... байтов в каталоге. .. выходной столбец CONTENT_SIZE ".
  • dfs -du:" Отображает файлы размеров ... содержащиеся в данном каталоге ".

Руководство говорит только, что оба содержат количество байтов в каталоге.

...