Question

inputfile='s3a://storename/stores.csv'
output_file='s3a://storename/newstores.parquet'

Созданный фрейм данных состоит из трех столбцов Id, Type, Size.

df=spark.read.format("csv").option("header","true").load(inputfile)

создал другой фрейм данных и выбрал два столбца Type, Size из df.

df1=df.select("Type","Size")
df1.show()

Type     Size

A         5847

A         9887

B         9873

Запись этого в s3 в паркете, разбитого на столбец Type:

df1.write.partitionBy("Type").format("parquet").save(output_file).

Ключи моих имен разделенных файлов отображаются следующим образом:

Type=A
Type=B

Можно ли как-нибудь отредактировать, чтобы мои s3 ключи объектов были видны, как показано ниже? Я новичок в spark и AWS. Спасибо.

A_file.parquet

B_file.parquet

Как редактировать конец s3 объектных ключей?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.