Я новичок в Pyspark. Мне нужно найти различные значения из определенного столбца в СДР.
У меня есть файл с разделителями-запятыми .txt без заголовков столбцов на S3.
rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])
print rddDistinct.take(10)
Что я делаю не так? В конце концов, я хотел бы сохранить полученный СДР в S3 (пока не получил). Если файл существует в S3, я хотел бы перезаписать его.