Question

Я пытаюсь загрузить несколько CSV на спарк с помощью функции sqlContext.read.

val df=sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("s3bucket/*.csv")

Мои CSV-файлы имеют разные заголовки, и я хотел бы знать, что именно делает эта функция. Он выполняет внешний DataFrame_join?

Простой пример, у меня 2 csv.

CSV file 1: VAR1 | VAR2 | VAR3 | VAR4
             a   |  b   |   c  |   d

CSV file 2: VAR1 | VAR2 | VAR5 
             e   |  f   |   g

Является ли итоговый DataFrame таким?

Data Frame: VAR1 | VAR2 | VAR3 | VAR4 | VAR5
             a   |  b   |   c  |   d  |  
             e   |  f   |      |      |   g

Spark: загрузка нескольких CSV с разными заголовками

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.