Apache Spark CSV не анализирует строку заголовка с включенной опцией ("заголовки", true) - PullRequest
0 голосов
/ 21 ноября 2018

Я вижу несколько вопросов, связанных с этим, но все решения - использовать заголовки, правда.Тем не менее, у меня есть очень простой CSV-файл, который я могу продемонстрировать, что это не работает.Я использую Spark 2.4.0 (запущен на 2.3, но обновлен, чтобы увидеть, есть ли какие-либо старые ошибки).

    Dataset<Row> df = spark.read().option("headers", true)
        .format("csv")
        .load("src/main/resources/students.csv");

// csv file:

studentId,studentName,State,GPA,favoritBookTitle,working
1100,Royce Piche,NJ,1.5,To Kill a Mockingbird,TRUE
1120,Alexis Morriss,NJ,3.0,Pride and Prejudice,FALSE

//output

+---------+--------------+-----+---+--------------------+-------+
|      _c0|           _c1|  _c2|_c3|                 _c4|    _c5|
+---------+--------------+-----+---+--------------------+-------+
|studentid|   studentname|State|GPA|    favoritbooktitle|working|
|     1100|   Royce Piche|   NJ|1.5|To Kill a Mocking...|   TRUE|
|     1120|Alexis Morriss|   NJ|3.0| Pride and Prejudice|  FALSE|

Я пробовал несколько разных способов чтения csv и / или принудительного использования заголовков, в том числе вызов метода csv против загрузки.Javadocs и другая информация указывают, что это должно работать.Я что-то упускаю или пропускаю?Или есть другой способ сделать это?

...