У меня есть Spark Dataframe (Scala) со столбцами id - (Int)
и tokens - (array<string>)
:
id,tokens
0,["a","b","c"]
1,["a","b"]
...
Предполагается, что я могу получить данные через SparkSession и привести к классу дела:
case class Token(id: Int, tokens: Array[String])
После получения объекта Dataset[Token]
как мне объединить весь массив строковых токенов в один Array<String>
, а затем выполнить подсчет, чтобы найти наиболее встречающиеся строки?
Выход:
a,2
b,2
c,1
...