Spark: сохранение пары RDD в качестве режима добавления в той же выходной папке - PullRequest
0 голосов
/ 25 октября 2018

Я пишу свой искровой вывод, как показано ниже

pairedRDD.partitionBy(new HashPartitioner(noOfHashPartitioner)).saveAsHadoopFile(output, classOf[String], classOf[String], classOf[RddMultiTextOutputFormat], classOf[GzipCodec])

Но в этом случае каждый раз, когда мне нужно удалить выходную папку, а затем запустить свое искровое задание, вместо этого я хочу записать свой вывод в тот жепапка вывода снова и снова на S3.

Причина этого заключается в том, что мой искровой код выводит миллионы небольших XML-файлов, и для запуска моего искрового кода мне нужно скопировать вывод в другую папку S3, которая занимает много временииз-за огромного размера и небольшого количества объектов.

Итак, мы хотели иметь что-то в искре, чтобы оно могло писать в одной папке или продолжать добавлять вывод в той же папке.

1 Ответ

0 голосов
/ 25 октября 2018

Попробуйте это.

conf.set("spark.hadoop.validateOutputSpecs", "false")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...