PySpark: как создать СДР из списков уникальных строк из данного СДР (id, [strings]) - PullRequest
0 голосов
/ 28 января 2020

Я новичок в Spark. Предположим, теперь у меня есть RDD1, формат данных которого является кортежем (id, list [strs]), например:

(id1, ["okay","okay", "not Okay"])
(id2, ["okay","good","good","good1"])

Теперь я хочу создать еще один RDD2 из данного RDD1, который содержит только списки уникальные строки из каждого подсписка, такие как:

["okay", "not Okay"]
["okay", "good","good1"]

Не могли бы вы, ребята, дать мне знать, как обрабатывать эту операцию? Сначала я польстил RDD1 и вызвал функцию Different (), но это дало бы мне только полный список уникальных строк. Что я действительно хочу - это иметь уникальную строку в каждом списке оригинального RDD1.

Наконец, предположим, у меня есть HashMap, могу ли я превратить его в RDD? Заранее спасибо.

1 Ответ

0 голосов
/ 28 января 2020

Вы можете просто использовать:

rdd1.map(lambda x: list(set(x[1])))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...