Когда я записываю свой фрейм данных в S3, используя
df.write
.format("parquet")
.mode("overwrite")
.partitionBy("year", "month", "day", "hour", "gen", "client")
.option("compression", "gzip")
.save("s3://xxxx/yyyy")
, я получаю в S3
year=2018
year=2019
следующее, но вместо этого я хотел бы иметь это:
year=2018
year=2018_$folder$
year=2019
year=2019_$folder$
Сценарии, которые читают из этого местоположения S3, зависят от записей *_$folder$
, но я не нашел способа настроить spark / hadoop для их генерации.
Есть идеи о том, какие настройки конфигурации hadoop или spark управляют генерацией файлов *_$folder$
?