Question

Я пытаюсь записать DF в один файл паркета на основе некоторого ключа (раздела по имени) для S3.Мое требование - добавлять данные в один и тот же файл паркета для каждого прогона.

Это код, который я использовал, но этот код создавал папки для каждого имени в этой папке для каждого прогона, создавая новые файлы паркета.Однако мое требование - записать в один файл.

df.coalesce(1).write.partitionBy("name").format("parquet").mode(SaveMode.Append).option("fileType", "parquet").save("s3n://ialert-data/store-streaming-data/")

Greg · Answer 1 · 02 марта 2019

Вам нужно использовать перераспределение, а не разделение и объединение после перераспределения.

df.repartition(df("name")).coalesce(1).write.mode(SaveMode.Append).parquet("s3n://ialert-data/store-streaming-data/")

Как записать данные в кадре данных в один файл .parquet (данные и метаданные в одном файле) в Amazon S3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как записать данные в кадре данных в один файл .parquet (данные и метаданные в одном файле) в Amazon S3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов