Как MasterNode вписывается в кластер Spark? - PullRequest
0 голосов
/ 15 мая 2018

Я немного запутался в том, как настроить конфигурацию Spark для рабочих нагрузок, используя YARN в качестве менеджера ресурсов. У меня сейчас небольшой кластер с 1 главным узлом и 2 основными узлами.

Включить ли основной узел при подсчете количества исполнителей или нет?

Оставить ли 1 ядро ​​для каждого узла для учета управления пряжей?

Должен ли я назначить мастер-узел для чего-либо, в частности, в конфигурациях Spark?

1 Ответ

0 голосов
/ 16 мая 2018
  1. Мастер-узел не должен учитываться при расчете количества исполнителей
  2. Каждый узел на самом деле является экземпляром EC2 с операционной системой, поэтому вам нужно оставить 1 или более ядер для системных задач и агентов пряжи
  3. Мастер-узел может использоваться для запуска искрового драйвера. Для этого запустите кластер EMR в режиме клиента с главного узла, добавив аргументы --master yarn --deploy-mode client к команде spark-submit. Имейте в виду следующее:

    Режим кластера позволяет отправлять работу с использованием S3 URI. В режиме клиента необходимо поместить приложение в локальную файловую систему на главном узле кластера

Чтобы выполнить всю подготовительную работу (скопировать библиотеки, скрипты и т. Д. На главный узел), вы можете настроить отдельный шаг, а затем выполнить команду spark-submit --master yarn --deploy-mode client в качестве следующего шага.

...