У меня есть следующее df:
+------+-------+--------+
|student| vars|observed|
+------+-------+--------+
| 1| ABC | 19|
| 1| ABC | 1|
| 2| CDB | 1|
| 1| ABC | 8|
| 3| XYZ | 3|
| 1| ABC | 389|
| 2| CDB | 946|
| 1| ABC | 342|
|+------+-------+--------+
Я хотел добавить новый столбец частоты groupBy два столбца "student", "vars" в SCALA.
val frequency = df.groupBy($"student", $"vars").count()
Этот код генерирует столбец "count" с частотами НО теряет наблюдаемый столбец из df .
Я хотел бы создать новый df следующим образом без потери «наблюдаемой» колонки
+------+-------+--------+------------+
|student| vars|observed|total_count |
+------+-------+--------+------------+
| 1| ABC | 9|22
| 1| ABC | 1|22
| 2| CDB | 1|7
| 1| ABC | 2|22
| 3| XYZ | 3|3
| 1| ABC | 8|22
| 2| CDB | 6|7
| 1| ABC | 2|22
|+------+-------+-------+--------------+