Я пытаюсь сохранить RDD в AWS S3 с помощью pyspark, но получаю ошибку «каталог уже существует».
Приведенная ниже инструкция отлично работает, если папка «content1» отсутствует. Но если я хотел сохранить дополнительные файлы в той же папке, это дает мне вышеуказанную ошибку?
rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")
Кроме того, когда вышеуказанная команда работает, она создает эти part-00000x.gz, что нормально, но
- Как мне дать им собственные имена, такие как research-results-00000x.gz?
- Означает ли это, что я иду, чтобы сохранить дополнительные файлы в папку "content1", мне нужно удалить / переместить уже существующие файлы, потому что это вызовет конфликт имен?
Итак, каков правильный способ сохранения RDD в существующую корзину / папку для обработки вышеуказанных сценариев? Заранее спасибо.