Я использую Spark 2.2.1 через Zeppelin.
Прямо сейчас мой код чтения с искрой выглядит следующим образом:
val data = spark.read.option("header", "true").option("delimiter", ",").option("treatEmptyValuesAsNulls","true").csv("listings.csv")
Я заметил, когда Я использую функцию .show()
, клетки смещены вправо. На CSV все ячейки находятся в правильных местах, но после прохождения Spark ячейки будут смещены вправо. Я смог определить виновника: цитаты неуместны. В файле CSV есть несколько ячеек, которые написаны так:
{TV, Inte rnet, Wi-Fi, "Кондиционер", Кухня, "Камин в помещении", Отопление, "Для семей / детей", Стиральная машина, сушилка}
Фактический вывод (обратите внимание, что я использовал .select()
и выбрал несколько столбцов, чтобы показать возникшую проблему.):
| description| amenities| square_feet| price|
+--------------------+--------------------+-----------------+--------------------+
|This large, famil...|"{TV,Internet,Wif...| Kitchen|""Indoor fireplace""|
|Guest room in a l...| "{TV,""Cable TV""| Internet| Wifi|
Ожидаемый результат:
| description| amenities| square_feet| price|
+--------------------+--------------------+-----------------+--------------------+
|This large, famil...|"{TV,Internet,Wif...| 1400 | $400.00 ||
|Guest room in a l...| "{TV,""Cable TV""| 1100 | $250.00 ||
Есть ли способ избавиться от цитат или заменить их апострофами? Апострофы не влияют на данные.