У меня есть простой фрейм данных с 3 столбцами.
+------------------+-------------------+-------+
| NM1_PROFILE| CURRENT_DATEVALUE| ID|
+------------------+-------------------+-------+
|XY_12345678 – Main|2019-12-19 00:00:00|myuser1|
+------------------+-------------------+-------+
Все, что я хочу в выводе, - это одна строка, состоящая из всех значений в строке фрейма данных, разделенных запятой или каналом. Несмотря на то, что в фрейме данных много строк, я просто хочу, чтобы одна цель решала мою задачу.
XY_12345678 – Main,2019-12-19 00:00:00,myuser1
Я пробовал использовать ниже, и он работал нормально для других моих фреймов данных, но для выше это дает мне ошибку .
df.rdd.map(lambda line: ",".join([str(x) for x in line])).take(1)[0]
Ошибка при обнаружении "-"
UnicodeEncodeError: 'ascii' code c не может кодировать символ u '\ u2013' в позиции 12: порядковый номер не в диапазоне (128)
Я использую Spark 1.6 с Python 2 и пробовал -
import sys
reload(sys)
sys.setdefaultencoding('utf8')