Question

Я новичок в Pyspark. Мне нужно найти различные значения из определенного столбца в СДР.

У меня есть файл с разделителями-запятыми .txt без заголовков столбцов на S3.

    rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])                                                                                                                                                                                                                         
    print rddDistinct.take(10)

Что я делаю не так? В конце концов, я хотел бы сохранить полученный СДР в S3 (пока не получил). Если файл существует в S3, я хотел бы перезаписать его.

pissall · Answer 1 · 01 ноября 2019

Вам нужно добавить .distinct() после вашей функции map.

rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2]).distinct()
print rddDistinct.take(10)

Извлекать отдельные значения из столбца в файле для создания RDD

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлекать отдельные значения из столбца в файле для создания RDD

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов