Чтение файлов в фрейм данных pyspark из каталогов и подкаталогов - PullRequest
1 голос
/ 14 октября 2019

У меня есть ниже, чтобы прочитать все файлы в каталоге, но я тоже пытаюсь получить подкаталоги. Я не всегда буду знать, что такое подкаталоги и, следовательно, не могу явно определить его

Может кто-нибудь посоветовать мне, пожалуйста?

df = my_spark.read.format("csv").option("header", "true").load(yesterday+"/*.csv")

Ответы [ 2 ]

1 голос
/ 15 октября 2019

Используйте подстановочные знаки после местоположения каталога, в котором вы хотите прочитать все подкаталоги.

"path/*/*"
0 голосов
/ 15 октября 2019

Благодаря Джоби

можете ли вы попробовать подать символы подстановки таким образом и увидеть "путь / / " - Джоби 23 часа назад

...