inputfile='s3a://storename/stores.csv'
output_file='s3a://storename/newstores.parquet'
Созданный фрейм данных состоит из трех столбцов Id
, Type
, Size
.
df=spark.read.format("csv").option("header","true").load(inputfile)
создал другой фрейм данных и выбрал два столбца Type
, Size
из df
.
df1=df.select("Type","Size")
df1.show()
Type Size
A 5847
A 9887
B 9873
Запись этого в s3
в паркете, разбитого на столбец Type
:
df1.write.partitionBy("Type").format("parquet").save(output_file).
Ключи моих имен разделенных файлов отображаются следующим образом:
Type=A
Type=B
Можно ли как-нибудь отредактировать, чтобы мои s3
ключи объектов были видны, как показано ниже? Я новичок в spark
и AWS
. Спасибо.
A_file.parquet
B_file.parquet