Как получить список подпапок в папке hdfs? - PullRequest
0 голосов
/ 19 сентября 2018

Предположим, мои паркет хранится следующим образом:

hdfs://root/folder1/pqt1.pqt
hdfs://root/folder2/pqt2.pqt
hdfs://root/folder3/pqt3.pqt
hdfs://root/folder4/part1/pqt4part1.pqt
hdfs://root/folder4/part2/pqt4part1.pqt
...

Как мне перечислить подпапки в 'hdfs: // root' в R, используя sparklyr?Желаемый результат будет (без рекурсии):

hdfs://root/folder1/
hdfs://root/folder2/
hdfs://root/folder3/
hdfs://root/folder4/
...

и с рекурсией:

hdfs://root/folder1/
hdfs://root/folder2/
hdfs://root/folder3/
hdfs://root/folder4/
hdfs://root/folder4/part1/
hdfs://root/folder4/part2/
...

1 Ответ

0 голосов
/ 19 сентября 2018

база R, вероятно, достаточно

list.dirs(path = "hdfs://root", full.names = TRUE, recursive = TRUE)

...