У меня есть сценарий Python, который просматривает все файлы в каталоге и печатает метаданные, такие как имя файла, расширение, размер, время создания и т. Д.
Проблема заключается в том, что я хочу передать в качестве входных данных каталогнаходится в HDFS.Я не знаю, как подойти к этому.
Я пробовал много вещей, таких как hdfs3, pywebhdfs, snakebite и так далее.Но в основном эти расширения предлагают базовую команду HDFS, и я не знаю, как получить доступ к папке, расположенной в HDFS.
for root, dirs, files in os.walk(MyDirectory):
for file in files:
if file.endswith(MyExtension):
#get File Name
a = (os.path.join(root, file))
#print a
filename = a
MyFileName = basename(a)
#get File Size
MyFileSize = getSize(filename) / 1000
print MyFileName + " >>> file size: " + str(MyFileSize) + "Kb"
В os.walk (MyDirectory) должно быть расположение каталога из hdfs,в моем случае: hdfs: //quickstar.cloudera: 8020 / user / cloudera / directory