Как использовать spark загрузить несколько файлов из hdfs - PullRequest
0 голосов
/ 21 февраля 2019

Я пытаюсь использовать следующий код для загрузки нескольких файлов из HDFS:

val data = spark
.read
.option("header", "true")
.option("mergeSchema","true")
.format("parquet")
.load("data/day=1/att=2/*,data/day=1/att=3/*,data/day=1/att=4/*")

Я получаю исключение:

    org.apache.spark.sql.AnalysisException: 
Path does not exist: hdfs://user/ccc/data/day=1/att=2/*,data/day=1/att=3/*,data/day=1/att=4/*

Как загрузить несколько файлов из hdfs?

1 Ответ

0 голосов
/ 21 февраля 2019

Вам необходимо заключать каждое из имен файлов в кавычки индивидуально.Должно работать следующее:

val data = spark
.read
.option("header", "true")
.option("mergeSchema","true")
.format("parquet")
.load("data/day=1/att=2/*","data/day=1/att=3/*","data/day=1/att=4/*")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...