Я новичок в Spark. Предположим, теперь у меня есть RDD1, формат данных которого является кортежем (id, list [strs]), например:
(id1, ["okay","okay", "not Okay"])
(id2, ["okay","good","good","good1"])
Теперь я хочу создать еще один RDD2 из данного RDD1, который содержит только списки уникальные строки из каждого подсписка, такие как:
["okay", "not Okay"]
["okay", "good","good1"]
Не могли бы вы, ребята, дать мне знать, как обрабатывать эту операцию? Сначала я польстил RDD1 и вызвал функцию Different (), но это дало бы мне только полный список уникальных строк. Что я действительно хочу - это иметь уникальную строку в каждом списке оригинального RDD1.
Наконец, предположим, у меня есть HashMap, могу ли я превратить его в RDD? Заранее спасибо.