У меня есть фрейм данных:
[data :String, itemType:String, itemClass:String, itemGroup:String]
, где itemType, itemClass и itemGroup содержат разделенную запятыми строку.Я взорвал их и создал одну строку для каждого значения.
df.withColumn("itemType", explode(split($"itemType", "[,]")))
.withColumn("itemGroup", explode(split($"itemGroup", "[,]")))
.withColumn("itemClass", explode(split($"itemClass", "[,]")))
Я пытаюсь сгруппировать по значениям itemType, itemGroup и itemClass.
df.groupBy($"itemType".contains("item class ")).count()
, но это просто дает мне значение true и null, но не группирует по шаблону.Есть ли способ группировки по наиболее распространенному шаблону, но не по точному совпадению.