У меня есть кадр данных в pyspark
, как показано ниже.Я хочу сделать groupby
и подсчет столбца category
в data frame
df.show()
+--------+----+
|category| val|
+--------+----+
| cat1| 13|
| cat2| 12|
| cat2| 14|
| cat3| 23|
| cat1| 20|
| cat1| 10|
| cat2| 30|
| cat3| 11|
| cat1| 7|
| cat1| 8|
+--------+----+
res = df.groupBy('category').count()
res.show()
+--------+-----+
|category|count|
+--------+-----+
| cat2| 3|
| cat3| 2|
| cat1| 5|
+--------+-----+
Я получаю желаемый результат.Теперь я хочу вычислить average
категории.data frame
имеет записи за 3 дня.Я хочу рассчитать среднее значение за эти 3 дня.
Результат, который я хочу получить, ниже.Я в основном хочу сделать count/no.of.days
+--------+-----+
|category|count|
+--------+-----+
| cat2| 1|
| cat3| 1|
| cat1| 2|
+--------+-----+
Как я могу это сделать?