Question

У меня есть датафрейм с 4 столбцами co1, col2, col3 и col4. Мне нужно:

Группировка данных на основе ключей col1 и col2
Затем сгруппируйте другие столбцы, такие как col3 и col4, и отобразите значения для col3 и col4.

Input

col1 col2 col3 col4
 1    1    2    4
 1    1    2    4
 1    1    3    5

выход

col1 col2 col_name col_value  cnt
1     1    col3      2         2
1     1    col3      3         1
1     1    col4      4         2
1     1    col4      5         1

Возможно ли это?

pons · Answer 1 · 28 апреля 2018

Мы можем использовать groupBy и union для достижения этой цели.

val x = Seq((1, 1,2,4),(1, 1,2,4),(1, 1,3,5)).toDF("col1", "col2", "col3", "col4")

val  y = x.groupBy("col1", "col2","col3").
          agg(count(col("col3")).alias("cnt")).
          withColumn("col_name", lit("col3")).
          select(col("col1"), col("col2"), col("col_name"), col("col3").alias("col_value"), col("cnt"))

val z = x.groupBy("col1", "col2","col4").
          agg(count(col("col4")).alias("cnt")).
          withColumn("col_name", lit("col4")).
          select(col("col1"), col("col2"), col("col_name"), col("col4").alias("col_value"), col("cnt"))

y.union(z).show()

Leo C · Answer 2 · 28 апреля 2018

Вот один подход, который должен работать для общего числа ключевых столбцов и столбцов значений (обратите внимание, что образец набора данных был расширен для иллюстрации):

val df = Seq(
  (1, 1, 2, 4, 6),
  (1, 1, 2, 4, 7),
  (1, 1, 3, 5, 7)
).toDF("col1", "col2", "col3", "col4", "col5")

import org.apache.spark.sql.functions._

val keyCols = Seq("col1", "col2")
val valCols = Seq("col3", "col4", "col5")

val dfList = valCols.map( c => {
  val grpCols = keyCols :+ c

  df.groupBy(grpCols.head, grpCols.tail: _*).agg(count(col(c)).as("cnt")).
    select(keyCols.map(col) :+ lit(c).as("col_name") :+ col(c).as("col_value") :+ col("cnt"): _*)
} )

dfList.reduce(_ union _).show
// +----+----+--------+---------+---+
// |col1|col2|col_name|col_value|cnt|
// +----+----+--------+---------+---+
// |   1|   1|    col3|        3|  1|
// |   1|   1|    col3|        2|  2|
// |   1|   1|    col4|        4|  2|
// |   1|   1|    col4|        5|  1|
// |   1|   1|    col5|        6|  1|
// |   1|   1|    col5|        7|  2|
// +----+----+--------+---------+---+

hi-zir · Answer 3 · 28 апреля 2018

Это случай для melt операции. Вы можете использовать реализацию, предоставленную ahue в качестве ответа на Как расплавить Spark DataFrame? .

val df = Seq(
  (1, 1, 2, 4), (1, 1, 2, 4), (1, 1, 3, 5)
).toDF("col1", "col2", "col3", "col4")


df.melt(
  Seq("col1", "col2"), Seq("col3", "col4"), "col_name", "col_value"
).groupBy("col1", "col2", "col_name", "col_value").count.show
// +----+----+--------+---------+-----+
// |col1|col2|col_name|col_value|count|
// +----+----+--------+---------+-----+
// |   1|   1|    col3|        3|    1|
// |   1|   1|    col4|        5|    1|
// |   1|   1|    col4|        4|    2|
// |   1|   1|    col3|        2|    2|
// +----+----+--------+---------+-----+

Группа за группой за искрой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Группа за группой за искрой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы