Я пытаюсь просмотреть файлы паркета и хотел бы показать количество отдельных значений столбца и количество строк, в которых он найден.
Эквивалент SQL:
select distinct(last_name), count(*) from optimization.opt_res group by (last_name)
В scala-spark (отображает их отдельно):
val dataFrame = sparkSession.read.parquet(fname)
dataFrame.show(truncate = false)
val disID = dataFrame.select("last_name").distinct()
disID.show(false)
val disCount = disID.count
Я хочу, чтобы это показывалось
+-----------+-------+
| last_name | count |
+-----------+-------+
| Alfred | 202 |
| James | 1020 |
+-----------+-------+