Spark 2 read.csv - пустые значения - PullRequest
0 голосов
/ 07 февраля 2019

Я пытаюсь обновить свой проект с Spark 1.6 до Spark 2.3.0, и я читаю, что новый читатель csv намного лучше (SQLContext.read.csv).

Однако читатель блоков данных обрабатывалпустое значение в CSV-файле по-другому.

Например, если у меня есть строка на CSV:

1, Тестирование ,, true

На Spark 1.6 я получил результат:

+-------+-------+-----+------+
|    _c0|    _c1|  _c2|   _c3|
+-------+-------+-----+------+
|   1   |Testing|     | true |
+-------+-------+-----+------+

Однако на Spark 2.3.0 я получил:

+-------+-------+-----+------+
|    _c0|    _c1|  _c2|   _c3|
+-------+-------+-----+------+
|   1   |Testing| null| true |
+-------+-------+-----+------+

Я пытался использовать опцию .option("nullValue", "") Но это неКажется, не работает.

Есть предложения?

РЕДАКТИРОВАТЬ: После тщательной проверки - кажется, нет никакой опции в Spark 2.3.0

Спасибо!

...