Получить список каталогов всего кластера Hadoop с более чем 50000 файлами - PullRequest
0 голосов
/ 08 июля 2019

Попытка получить список всех каталогов в кластере Hadoop с файлами более 500000. Если родительский каталог содержит более 500000 файлов, сценарий должен отобразить список подкаталогов и выполнить подсчет hdf для них, чтобы определить каталог с более чем 500000 файлов и перечислите подкаталог подкаталога и выполните подсчет, чтобы найти окончательный подкаталог с более чем 500000 файлами. Это должно быть сделано для всего кластера, начиная с /

hdfs dfs -ls / | grep '^ d' | awk '{print $ NF}' | пока читаю строку | hdfs dfs -count $ line | awk '$ 2> 500000 {print $ 1, $ 2, $ 3, $ 4}'

В этом списке перечислены только подкаталоги корневого каталога, которые должны быть в состоянии сделать для уровня подкаталога с 500000, опуская другие подкаталоги с меньшим количеством файлов

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...