Может ли PySpark обрабатывать os.walk для перебора подпапок? - PullRequest
0 голосов
/ 11 октября 2019

Я протестировал пару примеров кода, в которых перечислены все файлы в определенной папке (ниже). Тем не менее, ни один из них не может выполнить итерацию по подпапкам с использованием подстановочного знака.

Первая попытка:

import sys, os

root = "/dbfs/mnt/rawdata/2019/01/"+"01"+"/corp/"
path = os.path.join(root, "targetdirectory")
for path, subdirs, files in os.walk(root):
    for name in files:
        print(os.path.join(path, name))

Вторая попытка:

import os
for root, dirs, files in os.walk("/dbfs/mnt/rawdata/2019/01/01/corp/"):
    print(root)
    print(dirs)
    print(files)

Итак, в этом примере/01/01/ представляет 1 января (довольно очевидно). Есть ли способ перечислить все файлы в январе все сразу? Я работаю с Databricks и PySpark. Спасибо!

...