У меня есть датафрейм со значениями, такими как List [INTERSTED_FIELD: details].Я пытаюсь получить только заинтересованные поля из этого.Как удалить неинтересные поля?
Пример:
val df = Seq(
"TESTING:Testing(2,4, (4,6,7) foo, Foo purchase count 1 is too low",
"PURCHASE:BLACKLIST_ITEM: Foo purchase count (12, 4) is too low ",
"UNKOWN:#!@",
"BLACKLIST_ITEM:item (mejwnw) is blacklisted",
"BLACKLIST_ITEM:item (1) is blacklisted, UNKOWN:#!@"
).toDF("raw_type")
df.show(false)
+-----------------------------------------------------------------+
|raw_type |
+-----------------------------------------------------------------+
|TESTING:Testing(2,4, (4,6,7) foo, Foo purchase count 1 is too low|
|PURCHASE:BLACKLIST_ITEM: Foo purchase count (12, 4) is too low |
|UNKOWN:#!@ |
|BLACKLIST_ITEM:item (mejwnw) is blacklisted |
|BLACKLIST_ITEM:item (1) is blacklisted, UNKOWN:#!@ |
+-----------------------------------------------------------------+
Я пытаюсь получить:
+-----------------------------------------------------------------+
|raw_type |
+-----------------------------------------------------------------+
|TESTING |
|PURCHASE,BLACKLIST_ITEM |
|UNKOWN |
|BLACKLIST_ITEM |
|BLACKLIST_ITEM, UNKNOWN |
+-----------------------------------------------------------------+