Question

Я запускаю Spark RDD через collect (). Каждая отдельная задача занимает много времени для обработки, и набор результатов, возвращаемый collect (), очень велик:

   List<Result> manyResults =
      javaSparkContext
      .parallelize(tasks, tasks.size())
      .map(task -> task.process())
      .collect();

Мне нужно обработать результаты на драйвере.

Вместо того, чтобы ждать завершения всех Результатов, я просто хотел бы обработать каждый Результат индивидуально , поскольку каждый завершает .

Есть ли способ сделать это в Spark? итерации по заданию Ответы по мере выполнения каждого из них?

Arnon Rotem-Gal-Oz · Answer 1 · 17 апреля 2019

Либо вы продвигаете свою логику, чтобы она также распространялась (например, с помощью udf), либо вы можете создать аналогичный процесс в потоковой передаче искры и работать с небольшими партиями

С помощью Spark Java RDD, как я могу обрабатывать результаты отдельных задач сразу же после завершения каждого из них, не ожидая функции collect ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

С помощью Spark Java RDD, как я могу обрабатывать результаты отдельных задач сразу же после завершения каждого из них, не ожидая функции collect ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов