CSV Pyspark имеет несколько параметров, которые могут быть переданы
https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=read%20csv#pyspark.sql.DataFrameReader.csv
Я работаю с Excel-диалектом CSV (который я могу 'переписать легко).У него есть новые строки в ячейках и цитаты.Таким образом, он удваивает двойные кавычки и также оборачивает ячейки двойными кавычками.
Например,
"STUV.
JQL",STUV JQL,123456,"Schools, Colleges",105,-5
должен стать строкой
[
'STUV.\nJQL',
'STUV JQL',
'123456',
'Schools, Colleges',
'105',
'-5'
]
Это работаетс «превосходным» диалектом Python 3.
Как мне воспроизвести это поведение в Pyspark?