Spark: загрузка нескольких CSV с разными заголовками - PullRequest
0 голосов
/ 24 апреля 2019

Я пытаюсь загрузить несколько CSV на спарк с помощью функции sqlContext.read.

val df=sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("s3bucket/*.csv")

Мои CSV-файлы имеют разные заголовки, и я хотел бы знать, что именно делает эта функция. Он выполняет внешний DataFrame_join?

Простой пример, у меня 2 csv.

CSV file 1: VAR1 | VAR2 | VAR3 | VAR4
             a   |  b   |   c  |   d
CSV file 2: VAR1 | VAR2 | VAR5 
             e   |  f   |   g  

Является ли итоговый DataFrame таким?

Data Frame: VAR1 | VAR2 | VAR3 | VAR4 | VAR5
             a   |  b   |   c  |   d  |  
             e   |  f   |      |      |   g
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...