Question

Я новичок в Spark. Предположим, теперь у меня есть RDD1, формат данных которого является кортежем (id, list [strs]), например:

(id1, ["okay"，"okay", "not Okay"])
(id2, ["okay","good","good","good1"])

Теперь я хочу создать еще один RDD2 из данного RDD1, который содержит только списки уникальные строки из каждого подсписка, такие как:

["okay", "not Okay"]
["okay", "good","good1"]

Не могли бы вы, ребята, дать мне знать, как обрабатывать эту операцию? Сначала я польстил RDD1 и вызвал функцию Different (), но это дало бы мне только полный список уникальных строк. Что я действительно хочу - это иметь уникальную строку в каждом списке оригинального RDD1.

Наконец, предположим, у меня есть HashMap, могу ли я превратить его в RDD? Заранее спасибо.

PySpark: как создать СДР из списков уникальных строк из данного СДР (id, [strings])

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PySpark: как создать СДР из списков уникальных строк из данного СДР (id, [strings])

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов