Pyspark эквивалент CSV Excel диалект - PullRequest
0 голосов
/ 19 апреля 2019

CSV Pyspark имеет несколько параметров, которые могут быть переданы

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=read%20csv#pyspark.sql.DataFrameReader.csv

Я работаю с Excel-диалектом CSV (который я могу 'переписать легко).У него есть новые строки в ячейках и цитаты.Таким образом, он удваивает двойные кавычки и также оборачивает ячейки двойными кавычками.

Например,

"STUV.
JQL",STUV JQL,123456,"Schools, Colleges",105,-5

должен стать строкой

[
'STUV.\nJQL',
'STUV JQL',
'123456',
'Schools, Colleges',
'105',
'-5'
]

Это работаетс «превосходным» диалектом Python 3.

Как мне воспроизвести это поведение в Pyspark?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...