Как обрабатывать запятую в данных в файле с разделителями трубы в Pyspark - PullRequest
0 голосов
/ 07 апреля 2020

Образцы данных присутствуют в raw_file_path

member_id|member_name|member_birthdate
1|Rooney ,Shannon|16180705 
2|Alea ,Fitzpatrick|16990120 
3|Daquan ,Cooper|16681214 

csvData = spark.read.option("delimiter",delim).format("csv")\ 
    .load(raw_file_path,header='true',inferSchema='true').show()

Я хочу выводить как разделитель каналов, но так как 1 запятая является их значением, поэтому я не получаю ожидаемых результатов

Результат я получаю :

|           member_id|member_name|member_birthdate|
+--------------------+-----------+----------------+
|1|Rooney ,Shannon...|       null|            null|
|2|Alea ,Fitzpatri...|       null|            null|
|3|Daquan ,Cooper|...|       null|            null|

Ожидаемый результат

|member_id|   member_name|member_birthdate|
|1  | Rooney ,Shannon|        16180705|
|2  | Alea ,Fitzpatri|        16990120|
|3  | Daquan ,Cooper |        16681214|
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...