Информация об этапах моей искровой работы:
Этап 1:
spark.read().textFile(args[0]) -> lines.flatMap(....) -> lines.filter(....) -> lines.map(....)
Этап 2:
lines.groupbykey(...) -> lines.mapgroup(...).show();
Предположим, что на этапе 1 есть 5 разделов, поэтому на этаперазделить на 5 задач
Ниже мое понимание
драйвер передает исполнителю набор задач (flatmap, filter, map) для обработки?
все задачи на этапе будут выполнять одинаковую последовательность операций для каждого раздела параллельно, собирать выходные данные и отправляться на этап 2
flatmap,filter,map - Partition1 data
:
:
flatmap,filter,map - Partition5 data
Пожалуйста, проверьте и подтвердите лимое понимание верно, если нет, пожалуйста, поправьте меня