Я пытаюсь записать DataFrame в S3 с некоторыми конкретными значениями параметров для форматирования моего вывода.Я использую опцию кодека GZIP, чтобы убедиться, что файл хранится в виде zip-файла, но, похоже, он не работает.
Это код вывода, который у меня есть:
df.coalesce(1).write.format("com.databricks.spark.csv").option("escape", "\t").option("quote", "\u0000").option("delimiter", "\t").option("codec", "org.apache.hadoop.io.compress.GzipCodec").save("s3://myS3Path")
Это выводитфайл с именем part-00000-xxxxx.csv.gz, но если я проверю метаданные объекта S3, он перечисляет Content-Type как binary / octet-stream .Я хочу вывести этот DataFrame так, чтобы это поле метаданных стало application / x-gzip , которое, насколько я могу судить, является представлением сжатого объекта.
Если есть способ сделать это без вызова coalesce()
, я бы предпочел это, но мой приоритет - заставить его работать как application / x-gzip .Любая подсказка?