Я пишу свой искровой вывод, как показано ниже
pairedRDD.partitionBy(new HashPartitioner(noOfHashPartitioner)).saveAsHadoopFile(output, classOf[String], classOf[String], classOf[RddMultiTextOutputFormat], classOf[GzipCodec])
Но в этом случае каждый раз, когда мне нужно удалить выходную папку, а затем запустить свое искровое задание, вместо этого я хочу записать свой вывод в тот жепапка вывода снова и снова на S3.
Причина этого заключается в том, что мой искровой код выводит миллионы небольших XML-файлов, и для запуска моего искрового кода мне нужно скопировать вывод в другую папку S3, которая занимает много временииз-за огромного размера и небольшого количества объектов.
Итак, мы хотели иметь что-то в искре, чтобы оно могло писать в одной папке или продолжать добавлять вывод в той же папке.