Я тестирую этот кусок кода.
dbutils.fs.ls("/mnt/rawdata/2019/01/01/corp/")
Это прекрасно работает для одной папки, но если я попробую строку ниже, это не получится.
dbutils.fs.ls("/mnt/rawdata/2019/01/*/corp/")
Есть лиспособ рекурсивного перечисления всех файлов в родительской папке и всех подпапках? Я хотел бы получить список файлов, передаваемых в фрейм данных.
Я попробовал приведенный ниже код, и он отлично работает для загрузки файлов с похожими именами во фрейм данных.
val myDFCsv = spark.read.format("csv")
.option("sep","|")
.option("inferSchema","true")
.option("header","false")
.load("mnt/rawdata/2019/01/*/corp/*.gz")
Однако я не хочу объединять похожие файлы, я хочу перечислить имена файлов и пути, где находятся эти файлы. Спасибо!