Question

Я пытаюсь сохранить RDD в AWS S3 с помощью pyspark, но получаю ошибку «каталог уже существует».

Приведенная ниже инструкция отлично работает, если папка «content1» отсутствует. Но если я хотел сохранить дополнительные файлы в той же папке, это дает мне вышеуказанную ошибку?

rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1", compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

Кроме того, когда вышеуказанная команда работает, она создает эти part-00000x.gz, что нормально, но

Как мне дать им собственные имена, такие как research-results-00000x.gz?
Означает ли это, что я иду, чтобы сохранить дополнительные файлы в папку "content1", мне нужно удалить / переместить уже существующие файлы, потому что это вызовет конфликт имен?

Итак, каков правильный способ сохранения RDD в существующую корзину / папку для обработки вышеуказанных сценариев? Заранее спасибо.

Способы сохранения RDD на S3 с помощью pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Способы сохранения RDD на S3 с помощью pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов