Преобразование значения ключа rdd в просто rdd со списком значений - PullRequest
0 голосов
/ 20 мая 2018

Как я могу преобразовать значение ключа rdd в rdd с помощью только списка значений в PySpark?

Предположим, что rdd имеет (key1, «это тест») и (key2, «сегодня»в воскресенье), я хочу преобразовать этот rdd в rdd, который имеет («это тест», «сегодня воскресенье»)

Пара значений ключа - user_id и твиты, и я хочу токенизироватьсначала твиты, и сообщать счет за токен.Затем следует проделать то же самое для определенной группы пользователей.Все в PySpark.

1 Ответ

0 голосов
/ 20 мая 2018

То, что вы ищете, это values

Что касается других шагов, пожалуйста, опубликуйте образец данных и желаемый вывод.

> rdd = sc.parallelize([("key1", "this is a test"), ("key2", "today is Sunday")])
> print rdd.values().collect()

[«это тест», «сегодня воскресенье»]

...