как найти сумму и количество повторяющихся значений в pyspark? - PullRequest
0 голосов
/ 30 мая 2019

у меня есть датафрейм dd1

colA    colB    Total   
 A       A        12
 A       A         1
 B       B        45
 B       B         0
 B       B         5
 C       C         1
 D       D         12

и я хочу вывод, как этот dd2:

colA    colB    count  Total   
 A       A        2      13
 B       B        3      50
 C       C        1       1
 D       D        1      12

В столбце count указано, сколько раз это произошло, а в столбце Total содержится сумма Total.

1 Ответ

1 голос
/ 30 мая 2019

Попробуйте это -

from pyspark.sql import functions as F

dd2 = dd1.groupBy('colA','colA').agg(F.count('colA').alias('count'),F.sum('Total').alias('Total'))
...