У меня есть фрейм данных со столбцом массива, например:
val df = Seq(
Array("abc", "abc", "null", "null"),
Array("bcd", "bc", "bcd", "null"),
Array("ijk", "abc", "bcd", "ijk")).toDF("col")
И выглядит так:
col:
["abc","abc","null","null"]
["bcd","bc","bcd","null"]
["ijk","abc","bcd","ijk"]
Я пытаюсь получить дублирующее значение каждого массива в scala :
col_1:
['abc']
['bcd']
['ijk']
Я пытался получить дублирующее значение в списке, но не знал, как это можно сделать с помощью столбца массива
val df = List("bcd", "bc", "bcd", "null")
df.groupBy(identity).collect { case (x, List(_,_,_*)) => x }