Как Apache Spark выполняет этапы внутри работы? - PullRequest
0 голосов
/ 13 декабря 2018

Я пытаюсь понять, как Spark управляет планом выполнения этапов в задании.Я проверил много контента в Интернете, но ни один из них не отвечает на мой очень конкретный вопрос.Я также пытался прочитать исходный код, но был перегружен количеством файлов и сценариев в этом проекте.

Мой вопрос заключается в следующем: когда задание передается в драйвер Spark, создается группа обеспечения доступности баз данных, вершины которойфактические этапы, разделенные шаффл-операциями.Я знаю, что один этап не может быть запущен, пока все его родители не пройдут.Но предположим, что у нас есть несколько независимых этапов (как в операции соединения), как Spark запускает различные этапы?Это FIFO?Или Spark запускает их параллельно?Если да, то в соответствии с каким алгоритмом планирования?

Заранее спасибо

...