Если вы запускаете Spark в автономном режиме (локальный [*]) от мастера, тогда он будет использовать только главный узел.
Как вы отправляете искровое задание?
Используйте режим кластера пряжи или клиентский режим при отправке искрового задания для эффективного использования ресурсов.
Подробнее на Кластер YARN и клиент
Главный узел запускает все другие службы, такие как hive, mysql, et c. Эти службы могут занимать 5 ГБ оперативной памяти, если не используют автономный режим.
В yarn UI (http://<master-public-dns>:8088
) вы можете более подробно проверить, какие другие контейнеры работают.
Вы можете проверить где крутятся ваш искровый драйвер и исполнитель,
в искровом интерфейсе http://<master-public-dns>:18080
.
Выберите свое задание и go в раздел Executor , там вы найдете ip машины каждого исполнителя.
Включить ганглии в EMR ИЛИ go в CloudWatch ec2 metri c для проверки использования каждого компьютера.
Spark не запускает или завершает узлы.
Если вы хотите масштабировать в зависимости от загрузки вашего кластера, примените политику автомасштабирования к группе экземпляров CORE или TASK.
Но, по крайней мере, вам нужен, по крайней мере, 1 постоянно работающий узел CORE.