Как я могу настроить spark так, чтобы он создавал записи "_ $ folder $" в S3? - PullRequest
0 голосов
/ 15 апреля 2019

Когда я записываю свой фрейм данных в S3, используя

df.write
  .format("parquet")
  .mode("overwrite")
  .partitionBy("year", "month", "day", "hour", "gen", "client")
  .option("compression", "gzip")
  .save("s3://xxxx/yyyy")

, я получаю в S3

year=2018
year=2019

следующее, но вместо этого я хотел бы иметь это:

year=2018
year=2018_$folder$
year=2019
year=2019_$folder$

Сценарии, которые читают из этого местоположения S3, зависят от записей *_$folder$, но я не нашел способа настроить spark / hadoop для их генерации.

Есть идеи о том, какие настройки конфигурации hadoop или spark управляют генерацией файлов *_$folder$?

1 Ответ

1 голос
/ 15 апреля 2019

эти маркеры унаследованы; Я не думаю, что что-то создает их больше ... хотя они часто игнорируются, когда фактически перечисляют каталоги. (то есть, даже если они есть, они удаляются из списков и заменяются записями каталога).

...