Способы сохранения RDD на S3 с помощью pyspark - PullRequest
0 голосов
/ 08 ноября 2019

Я пытаюсь сохранить RDD в AWS S3 с помощью pyspark, но получаю ошибку «каталог уже существует».

Приведенная ниже инструкция отлично работает, если папка «content1» отсутствует. Но если я хотел сохранить дополнительные файлы в той же папке, это дает мне вышеуказанную ошибку?

rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

Кроме того, когда вышеуказанная команда работает, она создает эти part-00000x.gz, что нормально, но

  1. Как мне дать им собственные имена, такие как research-results-00000x.gz?
  2. Означает ли это, что я иду, чтобы сохранить дополнительные файлы в папку "content1", мне нужно удалить / переместить уже существующие файлы, потому что это вызовет конфликт имен?

Итак, каков правильный способ сохранения RDD в существующую корзину / папку для обработки вышеуказанных сценариев? Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...