Извлекать отдельные значения из столбца в файле для создания RDD - PullRequest
0 голосов
/ 01 ноября 2019

Я новичок в Pyspark. Мне нужно найти различные значения из определенного столбца в СДР.

У меня есть файл с разделителями-запятыми .txt без заголовков столбцов на S3.

    rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])                                                                                                                                                                                                                         
    print rddDistinct.take(10) 

Что я делаю не так? В конце концов, я хотел бы сохранить полученный СДР в S3 (пока не получил). Если файл существует в S3, я хотел бы перезаписать его.

Ответы [ 2 ]

0 голосов
/ 01 ноября 2019

используйте .distinct() в конце функции rddDistinct

0 голосов
/ 01 ноября 2019

Вам нужно добавить .distinct() после вашей функции map.

rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2]).distinct()
print rddDistinct.take(10)                                                                                                                                                                                                                      
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...