У меня есть DataFrame DF, и я хочу посчитать количество каждого txn в 2 категориях (Cat1 и Cat2).
DF
+------------+-------+
| Category | txn |
+-----===----+-------+
| Cat1 | A |
| Cat2 | A |
| Cat1 | B |
| Cat1 | C |
| Cat2 | D |
| Cat1 | D |
| Cat2 | C |
| Cat1 | D |
| Cat1 | A |
| Cat2 | C |
| Cat1 | D |
| Cat1 | A |
| Cat2 | B |
| Cat1 | C |
| Cat2 | D |
+------------+-------+
Код:
DF.groupBy("category_name").agg(count("txn").as("txn_count")).show(false)
Но это дает мне общее количество для каждой категории.
Желаемый вывод: (формат не имеет значения, просто нужно количество)
+------------+---------------------+
| Category | txn_count |
+-----===----+---------------------+
| Cat1 | A(3),B(1),C(2),D(3) |
| Cat2 | A(1),B(1),C(2),D(2) |
+------------+---------------------+
Заранее спасибо.