Данные считываются на рабочих узлах, если только программа, запущенная в кластере, не заставляет узел драйвера читать их. Конечно, рабочие Spark не загружают весь RDD в свою локальную память, какой раздел rdd попадает в какой рабочийобрабатывается диспетчером драйверов.
Это означает, что при применении преобразований к сеансу Spark предпринимает следующие шаги:
1. Создает группу обеспечения доступности баз данных для вычисления преобразований и действий в большинстве случаев. Возможный эффективный способ.
2.Отправляет файл JAR, содержащий общую информацию о программе и конкретную информацию об обработке, которую должен применить этот работник, ко всем активным работникам кластера.
Вышеданы очень абстрактно, поскольку при развертывании приложения внутри искрового кластера происходит гораздо больше, но основная идея заключается в том, что рабочие читают файлы, и то, что они должны с ними делать, исходит из драйверачерез сеть