Question

У меня есть набор данных, который выглядит примерно так:

|---------------------|
|      Status         |
|---------------------|
|          1         |
|---------------------|
|          1         |
|---------------------|
|          2         |
|---------------------|
|          3         |
|---------------------|
|          3         |
|---------------------|
|          2         |
|---------------------|
|          2         |
|---------------------|
|          2         |
|---------------------|
|          1         |
|---------------------|
|          1         |
|---------------------|

Мне нужно сгруппировать каждый набор статусов, содержащих одно и то же значение, в один ряд, что является лучшим способом сделать это в spark (версия 2.2.4)

Shu · Answer 1 · 22 апреля 2020

Вы можете groupBy в статусе, затем использовать collect_list

Example:

//sampledata

df.show()
//+------+
//|status|
//+------+
//|     1|
//|     1|
//|     2|
//|     3|
//|     3|
//|     2|
//|     1|
//+------+

df.groupBy("status").
agg(concat_ws(",",collect_list("status")).alias("group")).
show()   
//+------+-----+
//|status|group|
//+------+-----+
//|     3|  3,3|
//|     1|1,1,1|
//|     2|  2,2|
//+------+-----+

//collect as array

df.groupBy("status").
agg(collect_list("status").alias("group")).
show()  
//+------+---------+
//|status|    group|
//+------+---------+
//|     3|   [3, 3]|
//|     1|[1, 1, 1]|
//|     2|   [2, 2]|
//+------+---------+

искра: группировка по неизменной последовательности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

искра: группировка по неизменной последовательности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов