Question

У меня Spark работает над EMR, записывая JSON-файлы в S3 через EMRFS:

dataframe
  .coalesce(1)
  .write()
  .option("compression", "gzip")
  .mode(SaveMode.Overwrite)
  .json(outputPath);

Проблема в том, что выходной файл содержит только один заголовок Content-Type = application/octet-stream.И не хватает еще Content-Encoding = gzip.

Как установить метаданные Content-Encoding = gzip для выходного файла при записи его с помощью Spark?

Dakshin · Answer 1 · 03 января 2019

Вы также можете использовать параметры (Карта)

val metadataoptions = Map ("сжатие" -> "gzip", "Content-Language" -> "US-En");

dataframe.coalesce (1) .write (). Mode (SaveMode.Overwrite) .options (метаданныеопции) .json (outputPath);

Вам необходимо импортировать
import scala.collection.Map;

Spark устанавливает метаданные объекта S3 при записи в EMRFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark устанавливает метаданные объекта S3 при записи в EMRFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы