Rashmi Jhawar 25 апреля 2018 10

Чтение CSV в pyspark, если на csv нет заголовка

Rashmi Jhawar / 25 апреля 2018

Как мне создать СДР из файла CSV, у которого нет заголовка, и как мне объединить 2 СДР в столбце. Не используется Spark SQL

rdd1 = sc.textFile('transactions.csv')

1 Ответ

ags29 / 25 апреля 2018

Это зависит от того, хотите ли вы использовать DataFrame или RDD. Если это первое, попробуйте:

spark.read.format("csv").option("header", "false").load("transactions.csv")

Столбцы будут сгенерированы автоматически. Если это последнее, сделайте что-то вроде:

rdd1 = sc.textFile('transactions.csv').map(lambda row: row.split(","))

...