Преобразовать массив с вложенной структурой в строковый столбец вместе с другими столбцами из PySpark DataFrame - PullRequest
0 голосов
/ 15 марта 2019

Это похоже на Pyspark: массив приведения с вложенной структурой в строку

Но принятый ответ не работает для моего случая, поэтому спрашивайте здесь

|-- Col1: string (nullable = true)
|-- Col2: array (nullable = true)
    |-- element: struct (containsNull = true)
          |-- Col2Sub: string (nullable = true)

Образец JSON

{"Col1":"abc123","Col2":[{"Col2Sub":"foo"},{"Col2Sub":"bar"}]}

Это дает результат в одном столбце

import pyspark.sql.functions as F
df.selectExpr("EXPLODE(Col2) AS structCol").select(F.expr("concat_ws(',', structCol.*)").alias("Col2_concated")).show()
    +----------------+
    | Col2_concated  |
    +----------------+
    |foo,bar         |
    +----------------+

Но как получить результат или DataFrame, как это

+-------+---------------+
|Col1   | Col2_concated |
+-------+---------------+
|abc123 |foo,bar        |
+-------+---------------+

EDIT: Это решение дает неправильный результат

df.selectExpr("Col1","EXPLODE(Col2) AS structCol").select("Col1", F.expr("concat_ws(',', structCol.*)").alias("Col2_concated")).show() 


+-------+---------------+
|Col1   | Col2_concated |
+-------+---------------+
|abc123 |foo            |
+-------+---------------+
|abc123 |bar            |
+-------+---------------+

1 Ответ

1 голос
/ 18 марта 2019

Просто избегайте взрыва, и вы уже там.Все, что вам нужно, это функция concat_ws .Эта функция объединяет несколько строковых столбцов с заданным разделителем.См. Пример ниже:

from pyspark.sql import functions as F
j = '{"Col1":"abc123","Col2":[{"Col2Sub":"foo"},{"Col2Sub":"bar"}]}'
df = spark.read.json(sc.parallelize([j]))

#printSchema tells us the column names we can use with concat_ws                                                                              
df.printSchema()

Вывод:

root
 |-- Col1: string (nullable = true)
 |-- Col2: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- Col2Sub: string (nullable = true)

Столбец Col2 является массивом Col2Sub, и мы можем использовать это имя столбца, чтобы получить желаемый результат:

bla = df.withColumn('Col2', F.concat_ws(',', df.Col2.Col2Sub))

bla.show()
+------+-------+                                                                
|  Col1|   Col2|
+------+-------+
|abc123|foo,bar|
+------+-------+
...