Question

Я пытаюсь записать DataFrame в S3 с некоторыми конкретными значениями параметров для форматирования моего вывода.Я использую опцию кодека GZIP, чтобы убедиться, что файл хранится в виде zip-файла, но, похоже, он не работает.

Это код вывода, который у меня есть:

df.coalesce(1).write.format("com.databricks.spark.csv").option("escape", "\t").option("quote", "\u0000").option("delimiter", "\t").option("codec", "org.apache.hadoop.io.compress.GzipCodec").save("s3://myS3Path")

Это выводитфайл с именем part-00000-xxxxx.csv.gz, но если я проверю метаданные объекта S3, он перечисляет Content-Type как binary / octet-stream .Я хочу вывести этот DataFrame так, чтобы это поле метаданных стало application / x-gzip , которое, насколько я могу судить, является представлением сжатого объекта.

Если есть способ сделать это без вызова coalesce(), я бы предпочел это, но мой приоритет - заставить его работать как application / x-gzip .Любая подсказка?

Spark DataFrame не сохраняется как файл gzip на S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark DataFrame не сохраняется как файл gzip на S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы