Как исправить исключение java.io.IOException: (строка 1) неверный символ между инкапсулированным токеном и разделителем в Spark Dataframe - PullRequest
0 голосов
/ 18 июня 2019

У меня есть два искровых кадра данных, к которым я пытаюсь присоединиться. Я пытаюсь соединить два кадра данных по второму столбцу ("C1")

Dataframe 1: a
Dataframe 2: b

Я загружаю df следующим образом: я загружаю данные CSV (они хранятся в файлах snappy) через df = sqlContext.read.format ("com.databricks.spark.csv"). Option ("quoteMode", " NONE "). Option (" delimiter "," | "). Load (/ path / path / path)

Я запустил этот код:

joined = a.join(b, a.C1==b.C1)

Это запускается немедленно; затем, когда я пытаюсь запустить .head () на этом объединенном фрейме данных, я получаю следующую ошибку:

ERROR CsvRelation$: Exception while parsing line: 
jkjsdklfsd9234lj23234hgy3234|394583495345|5|803|90245|A|NULL|HR44-200|3273205975|N|
Pacific|Y|asdf|asdf|437320597|023861998815|-1|NULL|2018-10-24 20:26:38|2018-10-24 
07:53:17|2018-10-19 02:30:19|2018-10-24 20:26:38|Stuff|2019-04-01 
12:10:02|2017-10-19 01:39:54|2037-01-01 00:00:00|2017-10-24 
13:54:05|N|Y|N|HR54-500|"1":"HR54","2":"C51-500".

java.io.IOException: (line 1) invalid char between encapsulated token and delimiter

После просмотра в Интернете кажется, что кавычки - это проблема (в конце ошибки), но я не знаю, как с этим бороться. Есть предложения?

...