Попытка получить список всех каталогов в кластере Hadoop с файлами более 500000. Если родительский каталог содержит более 500000 файлов, сценарий должен отобразить список подкаталогов и выполнить подсчет hdf для них, чтобы определить каталог с более чем 500000 файлов и перечислите подкаталог подкаталога и выполните подсчет, чтобы найти окончательный подкаталог с более чем 500000 файлами. Это должно быть сделано для всего кластера, начиная с /
hdfs dfs -ls / | grep '^ d' | awk '{print $ NF}' | пока читаю строку | hdfs dfs -count $ line | awk '$ 2> 500000 {print $ 1, $ 2, $ 3, $ 4}'
В этом списке перечислены только подкаталоги корневого каталога, которые должны быть в состоянии сделать для уровня подкаталога с 500000, опуская другие подкаталоги с меньшим количеством файлов