Расчет количества блоков Hadoop - PullRequest
0 голосов
/ 11 сентября 2018

Мы работаем с кластером Hadoop с коэффициентом репликации 3 и размером блока 64 МБ. Мы просто хотели узнать, как лучше всего рассчитать / запустить команду для просмотра фактического размера данных, который находится на всех датододах.
Кроме того, мы попытались использовать hdfs dfs -du -h и hdfs dfs dfsreport -report, но мы заметили, что если размер нашего диска составляет 12 ТБ:
а) Первая команда показала бы, что использование данных близко к 500 ГБ
б) Вторая команда будет показывать использование данных в 11,5 ТБ.

В чем причина различий, которые мы здесь упускаем? Любая помощь будет отличной!

1 Ответ

0 голосов
/ 11 сентября 2018

Во-первых, я хочу исправить вас со второй командой, которую вы упомянули.Это:

hdfs dfsadmin -report

Подходя к вопросу, почему результаты отличаются.Теперь команда du показывает только данные, используемые на dfs, а не на тех, которые не используются dfs.С другой стороны, 2-я команда вычисляет общее пространство (dfs + non-dfs), а затем выдает подробную информацию об использованных данных.

Она также переносит реплицированный объем данных, т. Е. Если данные потребляют 5ТБ места и репликации 3, тогда dfs-use будет 15 ТБ.

Надеюсь, что очистит ваш запрос.

...