Как записать данные в кадре данных в один файл .parquet (данные и метаданные в одном файле) в Amazon S3? - PullRequest
0 голосов
/ 01 марта 2019

Я пытаюсь записать DF в один файл паркета на основе некоторого ключа (раздела по имени) для S3.Мое требование - добавлять данные в один и тот же файл паркета для каждого прогона.

Это код, который я использовал, но этот код создавал папки для каждого имени в этой папке для каждого прогона, создавая новые файлы паркета.Однако мое требование - записать в один файл.

df.coalesce(1).write.partitionBy("name").format("parquet").mode(SaveMode.Append).option("fileType", "parquet").save("s3n://ialert-data/store-streaming-data/")

1 Ответ

0 голосов
/ 02 марта 2019

Вам нужно использовать перераспределение, а не разделение и объединение после перераспределения.

df.repartition(df("name")).coalesce(1).write.mode(SaveMode.Append).parquet("s3n://ialert-data/store-streaming-data/")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...