Как посчитать значения, повторяющиеся в массиве, используя RDD, dataframe, dataset - PullRequest
0 голосов
/ 05 июня 2019

Я должен посчитать повторяющиеся значения в массиве

val arr = Array(1,2,2,3,4,5,5,5)

Например, как посчитать число 5 в массиве, используя RDD, Dataframe, Datasets?

1 Ответ

1 голос
/ 05 июня 2019

Если вы поместите свой массив Scala int в Seq

val arr = Seq(1,2,2,3,4,5,5,5).toDF("num")
val counts = arr.groupBy($"num").agg(count($"num"))
scala> counts.show
+---+----------+
|num|count(num)|
+---+----------+
|  1|         1|
|  3|         1|
|  5|         3|
|  4|         1|
|  2|         2|
+---+----------+
...