как удалить двойные кавычки только из цифр c данных в кадре данных spark при записи их в csv - PullRequest
0 голосов
/ 17 февраля 2020

При записи данных в CSV-файл из искрового фрейма данных. Я хочу удалить "кавычки только из цифр c данных.

Фактический вывод:

+-------+---------+-----+
|user_id|course   |marks|
+-------+---------+-----+
|    "1"|    "eng"|  "9"|
|    "1"| "french"|  "7"|
+-------+---------+-- ---+

Ожидаемый вывод

+-------+---------+-----+
|user_id|course   |marks|
+-------+---------+-----+
|      1|    "eng"|    9|
|      1| "french"|    7|
+-------+---------+-----+

1 Ответ

0 голосов
/ 17 февраля 2020

В DF, приведение числовой столбец Тип данных для целочисленного типа,

import org.apache.spark.sql.types.IntegerType

df
.select(df("user_id").cast(IntegerType), df("course"), df("marks").cast(IntegerType))
.show()
...