Как читать несколько файлов в разных папках одновременно, используя спарк? - PullRequest
0 голосов
/ 13 декабря 2018

Я пытаюсь прочитать несколько файлов по разным путям одновременно.На сервере sql путь "/mapr/ia1.comscore.com/output/cms/cmcm/227m/2018????/app/RunningApp/part-.txt" указывает серверу читать всефайлы в папке запущенного приложения за месяц 227м (ноябрь 2018).«2018 ????»означает все даты в ноябре 2018. Таким образом, нам не нужно указывать серверу sql читать каждую дату одну за другой.Здесь '2018 ????'означает всю дату от «20181101» до «20181130».Я хочу сделать то же самое в spark. Но кажется, что spark не может распознать этот формат пути.Я также пытался изменить «2018 ????»тоже «2018 », все равно не работает.

Кто-нибудь знает, как это исправить?

Обратите внимание, что "/mapr/ia1.comscore.com/output/cms / cmcm / 227m / 20181101 / app / RunningApp / part - *. txt ") хорошо работает в режиме spark.

Я использую zeppelin в качестве ноутбука.

Большое спасибо.

1 Ответ

0 голосов
/ 13 декабря 2018

Самый простой способ - передать список путей, например, sparkContext.read.text(paths=[path1, path2, ...])

...