При попытке вычислить общее количество определенной группы файлов в каталоге опция -s
не работает (в Hadoop 2.7.1). Например:
Структура каталогов:
some_dir
├abc.txt
├count1.txt
├count2.txt
└def.txt
Предположим, что каждый файл имеет размер 1 КБ. Вы можете суммировать весь каталог с помощью:
hdfs dfs -du -s some_dir
4096 some_dir
Тем не менее, если я хочу, чтобы сумма всех файлов, содержащих «count», команда не выполнялась.
hdfs dfs -du -s some_dir/count*
1024 some_dir/count1.txt
1024 some_dir/count2.txt
Чтобы обойти это, я обычно пропускаю вывод через awk.
hdfs dfs -du some_dir/count* | awk '{ total+=$1 } END { print total }'
2048