Когда Spark отправляет задание менеджеру ресурсов YARN, он рисует логический и физический план выполнения, основанный на размере данных, разделе, местонахождении данных и, соответственно, количестве исполнителей, и все это происходит автоматически.Тем не менее, вы можете настроить # требуемого исполнителя, будь то запускать их на одном узле или на разных узлах кластера или на конкретном узле, что зависит от локальности данных и вида заданий, которые вы отправили.Вы не можете указать YARN запускать все исполнители во всех узлах кластера, но если у вас очень большой набор данных и сложное преобразование, он автоматически будет использовать весь кластер в узле.
Подробнее