Я пытаюсь загрузить несколько CSV на спарк с помощью функции sqlContext.read.
val df=sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("s3bucket/*.csv")
Мои CSV-файлы имеют разные заголовки, и я хотел бы знать, что именно делает эта функция. Он выполняет внешний DataFrame_join?
Простой пример, у меня 2 csv.
CSV file 1: VAR1 | VAR2 | VAR3 | VAR4
a | b | c | d
CSV file 2: VAR1 | VAR2 | VAR5
e | f | g
Является ли итоговый DataFrame таким?
Data Frame: VAR1 | VAR2 | VAR3 | VAR4 | VAR5
a | b | c | d |
e | f | | | g