У меня есть CSV-файл, например:
col1,col2,col3,col4
"A,B","C", D"
Я хочу прочитать его как фрейм данных в спарк, где значения каждого поля точно такие же, как записано в CSV (я хотел бы рассмотреть"
как обычный символ и скопируйте его как любой другой символ).
Ожидаемый вывод:
+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
| "A| B"| "C"| D"|
+----+----+----+----+
Вывод, который я получаю:
+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
| A,B| C| D"|null|
+----+----+----+----+
В pyspark я читаю так:
dfr = spark.read.format("csv").option("header", "true").option("inferSchema", "true")
Я знаю, что если я добавлю такую опцию:
dfr.option("quote", "\u0000")
Я получу ожидаемый результат вВ приведенном выше примере функция char '"'
теперь выполняется с помощью '\u0000'
, но если мой CSV-файл содержит '\u0000'
char, я также получу неправильный результат.
Поэтому мой вопросis: Как отключить параметр кавычки, чтобы ни один символ не действовал как кавычка?
Мой CSV-файл может содержать любой символ, и я хочу, чтобы все символы (кроме запятых) простобыть скопированы в соответствующую ячейку фрейма данных.Интересно, есть ли способ сделать это с помощью опции escape.