Question

По сути, у меня есть фрейм данных, который выглядит следующим образом:

+----+-------+------+------+
| id | index | col1 | col2 |
+----+-------+------+------+
| 1  | a     | a11  | a12  |
+----+-------+------+------+
| 1  | b     | b11  | b12  |
+----+-------+------+------+
| 2  | a     | a21  | a22  |
+----+-------+------+------+
| 2  | b     | b21  | b22  |
+----+-------+------+------+

, и мой желаемый вывод такой:

+----+--------+--------+--------+--------+
| id | col1_a | col1_b | col2_a | col2_b |
+----+--------+--------+--------+--------+
| 1  | a11    | b11    | a12    | b12    |
+----+--------+--------+--------+--------+
| 2  | a21    | b21    | a22    | b22    |
+----+--------+--------+--------+--------+

Так что в основном я хочу "взорвать" index столбец в новые столбцы после того, как я сгруппировался id.Кстати, счетчики id одинаковы, и каждый id имеет одинаковый набор значений index.Я использую pyspark.

mahesh gupta · Answer 1 · 23 сентября 2019

с помощью pivot вы можете получить желаемый результат.

from pyspark.sql import functions as F
df = spark.createDataFrame([[1,"a","a11","a12"],[1,"b","b11","b12"],[2,"a","a21","a22"],[2,"b","b21","b22"]],["id","index","col1","col2"])
df.show()
+---+-----+----+----+                                                           
| id|index|col1|col2|
+---+-----+----+----+
|  1|    a| a11| a12|
|  1|    b| b11| b12|
|  2|    a| a21| a22|
|  2|    b| b21| b22|
+---+-----+----+----+

с помощью pivot

 df3 =df.groupBy("id").pivot("index").agg(F.first(F.col("col1")),F.first(F.col("col2")))

collist=["id","col1_a","col2_a","col1_b","col2_b"]

Rename Column

df3.toDF(*collist).show()
+---+------+------+------+------+
| id|col1_a|col2_a|col1_b|col2_b|
+---+------+------+------+------+
|  1|   a11|   a12|   b11|   b12|
|  2|   a21|   a22|   b21|   b22|
+---+------+------+------+------+

Примечание изменить порядок столбцов в соответствии с вашими требованиями.

Функция pyspark agg для «взрыва» строк в столбцы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Функция pyspark agg для «взрыва» строк в столбцы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов