Я хочу проверить все файлы в моих hdfs.Я должен был бы сделать эту проверку на ежедневной основе.Например, я хочу знать о dir_count, file_count, content_size и pathname.Следующая команда выполняет мой запрос
hdfs dfs -count -h -v /apps
DIR_COUNT FILE_COUNT CONTENT_SIZE PATHNAME
66 121 919.8 K /apps
Так что я сделал что-то вроде этого
hdfs dfs -ls -R / | awk '{system("hdfs dfs -count -h " $8) }' >fullDirectory.txt
, в результате чего я сначала рекурсивно перечисляю все файлы в моем каталоге, а затем передаю егов качестве аргумента в вышеупомянутую команду.Команда выполняется успешно, но затраченное время очень велико, есть ли способ получить результаты быстрее?Или есть более простой способ достичь желаемого результата?любые предложения приветствуются.Я очень новичок в этом, был бы признателен, если вы объясните больше о том, что делает ваш код / решение.
Спасибо!