Создание схемы вложенного массива для преобразования строки json в структуру в pyspark - PullRequest
0 голосов
/ 14 марта 2019

Я пытаюсь создать схему, используемую для полного "структурирования" JSON-строки в столбце x фрейма данных pyspark.Я преуспел в преобразовании строки json, пока не столкнулся с этим:

json_string = "{
\"toyota\": [
    [
        {
            \"corolla\": {
                \"white\": -2,
                \"blue\": -42,
                \"black\": 0
            }
        },
        {
            \"corolla\": {
                \"white\": -33,
                \"blue\": -63,
                \"black\": 2
            }
        }
    ],
    [
        {
            \"corolla\": {
                \"white\": -2,
                \"blue\": -42,
                \"black\": 0
            }
        },
        {
            \"corolla\": {
                \"white\": -33,
                \"blue\": -63,
                \"black\": 2
            }
        }
    ]
]

} "

Я пробовал эту схему, но не работал.

schema = StructType([StructField("toyota",ArrayType(ArrayType(StructType([StructField("corolla", StructType([StructField("white",IntegerType(),"blue",IntegerType(),"black",IntegerType())]))]))))])

AВот фрагмент пользовательской функции моего pyspark:

structify_udf = udf(lambda json_string: json.loads(json_string), schema)

Пожалуйста, помогите с моей схемой . Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...