все задачи на этапе будут выполнять одинаковую последовательность операций - PullRequest
0 голосов
/ 23 декабря 2018

Информация об этапах моей искровой работы:

Этап 1:

spark.read().textFile(args[0]) -> lines.flatMap(....) -> lines.filter(....) ->  lines.map(....)

Этап 2:

lines.groupbykey(...) -> lines.mapgroup(...).show();

Предположим, что на этапе 1 есть 5 разделов, поэтому на этаперазделить на 5 задач

Ниже мое понимание

  1. драйвер передает исполнителю набор задач (flatmap, filter, map) для обработки?

  2. все задачи на этапе будут выполнять одинаковую последовательность операций для каждого раздела параллельно, собирать выходные данные и отправляться на этап 2

    flatmap,filter,map - Partition1 data
        :
        :
    flatmap,filter,map - Partition5 data
    

Пожалуйста, проверьте и подтвердите лимое понимание верно, если нет, пожалуйста, поправьте меня

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...