Как я могу получить доступ к каталогу, расположенному в HDFS, из скрипта Python? - PullRequest
0 голосов
/ 04 июня 2019

У меня есть сценарий Python, который просматривает все файлы в каталоге и печатает метаданные, такие как имя файла, расширение, размер, время создания и т. Д.

Проблема заключается в том, что я хочу передать в качестве входных данных каталогнаходится в HDFS.Я не знаю, как подойти к этому.

Я пробовал много вещей, таких как hdfs3, pywebhdfs, snakebite и так далее.Но в основном эти расширения предлагают базовую команду HDFS, и я не знаю, как получить доступ к папке, расположенной в HDFS.

for root, dirs, files in os.walk(MyDirectory):
    for file in files:
        if file.endswith(MyExtension):
            #get File Name
            a = (os.path.join(root, file))
            #print a
            filename = a
            MyFileName = basename(a)

            #get File Size
            MyFileSize = getSize(filename) / 1000
            print MyFileName + " >>> file size: " + str(MyFileSize) + "Kb"

В os.walk (MyDirectory) должно быть расположение каталога из hdfs,в моем случае: hdfs: //quickstar.cloudera: 8020 / user / cloudera / directory

...