Я пытаюсь создать схему, используемую для полного "структурирования" JSON-строки в столбце x фрейма данных pyspark.Я преуспел в преобразовании строки json, пока не столкнулся с этим:
json_string = "{
\"toyota\": [
[
{
\"corolla\": {
\"white\": -2,
\"blue\": -42,
\"black\": 0
}
},
{
\"corolla\": {
\"white\": -33,
\"blue\": -63,
\"black\": 2
}
}
],
[
{
\"corolla\": {
\"white\": -2,
\"blue\": -42,
\"black\": 0
}
},
{
\"corolla\": {
\"white\": -33,
\"blue\": -63,
\"black\": 2
}
}
]
]
} "
Я пробовал эту схему, но не работал.
schema = StructType([StructField("toyota",ArrayType(ArrayType(StructType([StructField("corolla", StructType([StructField("white",IntegerType(),"blue",IntegerType(),"black",IntegerType())]))]))))])
AВот фрагмент пользовательской функции моего pyspark:
structify_udf = udf(lambda json_string: json.loads(json_string), schema)
Пожалуйста, помогите с моей схемой . Спасибо