Question

Я пытаюсь просмотреть файлы паркета и хотел бы показать количество отдельных значений столбца и количество строк, в которых он найден.

Эквивалент SQL:

select distinct(last_name), count(*) from optimization.opt_res group by (last_name)

В scala-spark (отображает их отдельно):

val dataFrame = sparkSession.read.parquet(fname)
dataFrame.show(truncate = false)
val disID = dataFrame.select("last_name").distinct()
disID.show(false)
val disCount = disID.count

Я хочу, чтобы это показывалось

+-----------+-------+
| last_name | count |
+-----------+-------+
| Alfred    |   202 |
| James     |  1020 |
+-----------+-------+

Charlie Flowers · Answer 1 · 04 июля 2019

dataframe.groupBy($"last_name").agg(count("*"))

или

dataframe.groupBy($"last_name").count

Концепция такая же, как в SQL, но синтаксис может быть немного хитрым, пока вы не привыкнете к нему.

Scala Spark, показать отдельное значение столбца и подсчитать количество вхождений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scala Spark, показать отдельное значение столбца и подсчитать количество вхождений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов