Разделить значение json stur c на несколько столбцов в Pyspark - PullRequest
0 голосов
/ 27 января 2020

Я импортирую файл json в фрейм данных pyspark. Я импортировал json со следующим кодом

df = sqlContext.read.json("json_file.json").select("item", "attributes") 

Я хочу разделить атрибуты из одного столбца в несколько столбцов.

Вот пример json формат:

{"item":"item-1","attributes":{"att-a":"att-a-15","att-b":"att-b-10","att-c":"att-c-7"}}
{"item":"item-2","attributes":{"att-a":"att-a-15","att-b":"att-b-10","att-c":"att-c-7"}}

1 Ответ

0 голосов
/ 28 января 2020

Если вы хотите, чтобы ваши выходные данные были такими:

+------+--------+--------+-------+
|  item|   att-a|   att-b|  att-c|
+------+--------+--------+-------+
|item-1|att-a-15|att-b-10|att-c-7|
|item-2|att-a-15|att-b-10|att-c-7|
+------+--------+--------+-------+

Используйте

from pyspark.sql import functions as f

df.select('item','attributes.*').show()

, чтобы все атрибуты можно было увидеть в нескольких столбцах.

...