Question

Я пишу свой искровой вывод, как показано ниже

pairedRDD.partitionBy(new HashPartitioner(noOfHashPartitioner)).saveAsHadoopFile(output, classOf[String], classOf[String], classOf[RddMultiTextOutputFormat], classOf[GzipCodec])

Но в этом случае каждый раз, когда мне нужно удалить выходную папку, а затем запустить свое искровое задание, вместо этого я хочу записать свой вывод в тот жепапка вывода снова и снова на S3.

Причина этого заключается в том, что мой искровой код выводит миллионы небольших XML-файлов, и для запуска моего искрового кода мне нужно скопировать вывод в другую папку S3, которая занимает много временииз-за огромного размера и небольшого количества объектов.

Итак, мы хотели иметь что-то в искре, чтобы оно могло писать в одной папке или продолжать добавлять вывод в той же папке.

Spark: сохранение пары RDD в качестве режима добавления в той же выходной папке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark: сохранение пары RDD в качестве режима добавления в той же выходной папке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов