Pyspark: RDD со списком токенов для RDD с одним токеном на строку - PullRequest
0 голосов
/ 04 мая 2018

У меня есть список списков с токенами, такими как:

mylist = [['hello'],
          ['cat'],
          ['dog'],
          ['hey'],
          ['dog'],
          ['I', 'need', 'coffee'],
          ['dance'],
          ['dream', 'job']]

myRDD = sc.parallelize(mylist)

Я изо всех сил пытаюсь найти операцию, которая приведет к RDD, где каждая строка - один токен. Мой желаемый вывод:

[['hello'],
['cat'],
['dog'],
['hey'],
['dog'],
['I'], 
['need'], 
['coffee'],
['dance'],
['dream'], 
['job']]

Какой синтаксис подходит для этого? Спасибо

1 Ответ

0 голосов
/ 04 мая 2018

Просто flatMap:

myRDD.flatMap(lambda xs: ([x] for x in xs))
...