Я запускаю Spark RDD через collect (). Каждая отдельная задача занимает много времени для обработки, и набор результатов, возвращаемый collect (), очень велик:
List<Result> manyResults =
javaSparkContext
.parallelize(tasks, tasks.size())
.map(task -> task.process())
.collect();
Мне нужно обработать результаты на драйвере.
Вместо того, чтобы ждать завершения всех Результатов, я просто хотел бы обработать каждый Результат индивидуально , поскольку каждый завершает .
Есть ли способ сделать это в Spark? итерации по заданию Ответы по мере выполнения каждого из них?