У меня есть СДР в этом формате:
(key, [v1, v2, v3, ..., vn])
, и я хочу преобразовать его в СДР следующим образом:
(key, v1), (key, v2), ..., (key, vn)
Для уточнения, я использую sc.wholeTextFile(dir)
для чтения всех текстовых документов в каталоге dir
, и СДР будет выглядеть так: (document, content)
. Я хочу преобразовать это в RDD как это: (document, word)
. Другими словами, я хочу сохранить информацию о документе в СДР.
Я использую RDD.flatMap(lambda (document, text): (document, re.split(' '), text))
, чтобы разбить текст на слова, но не смог найти способ разбить последовательность слов на отдельные элементы.