Записать фрейм данных Pyspark в s3 - PullRequest
0 голосов
/ 15 мая 2019

У меня есть фрейм данных pyspark, который я хочу записать в s3. Мой фрейм данных выглядит как -

id          age       gender        salary      item
1            32        M            30000        A
2            28        F            27532        B
3            39        M            32000        A
4            22        F            22000        C

При чтении этого фрейма данных из s3 это выглядит как -

_c0         _c1       _c2           _c3         _c4
id          age       gender        salary      item
1            32        M            30000        A
2            28        F            27532        B
3            39        M            32000        A
4            22        F            22000        C

Появляется новый заголовок.

Я сделал -

df.coalesce(1).write.format('csv').mode('overwrite').option("header", "false")\
.save("s3a://xxx-aaa/data/group=XXX/my_data/")

# reading the data -
final_df = spark.read.csv(s3a://xxx-aaa/data/group=XXX/my_data/")

1 Ответ

0 голосов
/ 15 мая 2019

Используйте это .option("header", "true") при сохранении и используйте spark.read.csv (filepath, header = True) при чтении

...