Есть ли способ сохранить вложенные кавычки в значении фрейма данных pyspark при записи в файл (в моем случае это TSV), а также избавиться от «внешних» (т. Е. Тех, которые обозначают строковое значение в столбце)?
>>> dff = sparkSession.createDataFrame([(10,'this is "a test"'), (14,''), (16,'')], ["age", "comments"])
>>> dff.show()
+---+----------------+
|age| comments|
+---+----------------+
| 10|this is "a test"|
| 14| |
| 16| |
+---+----------------+
>>> dff.write\
.mode('overwrite')\
.option("sep", "\t")\
.option("quoteAll", "false")\
.option("emptyValue", "").option("nullValue", "")\
.csv('/tmp/test')
затем
$ cat /tmp/test/part-000*
10 "this is \"a test\""
14
16
# what I'd want to see is
10 this is "a test"
14
16
# because I am later parsing based only on TAB characters, so the quote sequences are not a problem in that regard
Есть ли способ записать кадр данных в этом желаемом формате?
* в стороне, более подробная информация об используемых аргументах можетможно найти здесь