Я читаю Spark: исчерпывающее руководство и многому учусь.
Тем не менее, во время чтения меня смущает то, сколько процессов драйвера приходится на одно задание Spark , Когда текст впервые знакомит с процессами драйвера и исполнителя, это подразумевает, что для каждой машины существует драйвер, но при обсуждении широковещательных переменных звучит так, будто на кластер существует один драйвер.
Это потому, что текст говорит о процессе драйвера, отправляющем широковещательную переменную каждому узлу в кластере, чтобы он мог там быть кэширован. Это звучит так, как будто во всем кластере есть только один процесс драйвера, который отвечает за это.
Какой это процесс: один процесс драйвера на кластер или один на машину? Или это может быть и то и другое? Я думаю, что я что-то здесь упускаю.