Как получить размер каталога, нет файлов в каждом каталоге, размер файла и путь к каталогу в hdfs - PullRequest
0 голосов
/ 26 апреля 2019

Я хочу проверить все файлы в моих hdfs.Я должен был бы сделать эту проверку на ежедневной основе.Например, я хочу знать о dir_count, file_count, content_size и pathname.Следующая команда выполняет мой запрос

hdfs dfs -count -h -v /apps

DIR_COUNT   FILE_COUNT       CONTENT_SIZE PATHNAME
      66          121            919.8 K /apps

Так что я сделал что-то вроде этого

hdfs dfs -ls -R / | awk '{system("hdfs dfs -count -h " $8) }' >fullDirectory.txt

, в результате чего я сначала рекурсивно перечисляю все файлы в моем каталоге, а затем передаю егов качестве аргумента в вышеупомянутую команду.Команда выполняется успешно, но затраченное время очень велико, есть ли способ получить результаты быстрее?Или есть более простой способ достичь желаемого результата?любые предложения приветствуются.Я очень новичок в этом, был бы признателен, если вы объясните больше о том, что делает ваш код / ​​решение.

Спасибо!

...