привет, у меня уже есть датафрейм:
df_init со всеми столбцами:
A|B|C|D
Я получаю JSON, как:
json=[{"A":"1","B":"2","C":"3"},
{"A":"1","B":"2","C":"3","D":"4"},
{"A":"1","B":"2"}]
я хочу, чтобы df_final вроде:
A|B| C |D
1|2| 3 |None
1|2| 3 |4
1|2|None|None
если я это сделаю:
msgJSON=self.spark.sparkContext.parallelize([json_string],1)
df = self.sqlContext.read.option("multiLine", "true").options(samplingRatio=1.0).json(msgJSON)
но у меня есть проблемы с ошибкой.
спасибо