У меня Spark работает над EMR, записывая JSON-файлы в S3 через EMRFS:
dataframe
.coalesce(1)
.write()
.option("compression", "gzip")
.mode(SaveMode.Overwrite)
.json(outputPath);
Проблема в том, что выходной файл содержит только один заголовок Content-Type = application/octet-stream
.И не хватает еще Content-Encoding = gzip
.
Как установить метаданные Content-Encoding = gzip
для выходного файла при записи его с помощью Spark?