Я пытаюсь прочитать CSV в PySpark, где моим разделителем является «|», но есть некоторые столбцы, которые имеют «\ |» как часть значения в ячейке.
CSV Data:
a|b|c|this should be \| one column
some_df = spark.read.csv(file, sep="|", quote="")
some_df.show()
Вывод:
+---+---+---+----------------+-----------+
|_c0|_c1|_c2| _c3| _c4|
+---+---+---+----------------+-----------+
| a | b | c |this should be \| one column|
+---+---+---+----------------+-----------+
Ожидается:
+---+---+---+---------------------------+
|_c0|_c1|_c2| _c3|
+---+---+---+---------------------------+
| a | b | c |this should be \ one column|
+---+---+---+---------------------------+