Путаница с использованием Yarn Resource Manager - PullRequest
1 голос
/ 27 января 2020

Я пытаюсь запустить простое задание pyspark в Amazon AWS, и он настроен на использование Yarn через файл spark-default.conf. Я немного озадачен кодом развертывания пряжи.

Я вижу некоторый пример кода, как показано ниже:

conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('spark-yarn')
sc = SparkContext(conf=conf)

И я не уверен, как мне выполнить задание spark в этом случае, когда указан 'yarn-client'. Я обычно делаю это следующим образом:

$spark-submit --deploy-mode client spark-job.py

Но в чем разница между

$spark-submit --deploy-mode client spark-job.py

и

$spark-submit spark-job.py

Как мне определить, смотрит ли на искровые журналы работа выполнялась в режиме клиента или кластера или клиента пряжи?

1 Ответ

1 голос
/ 27 января 2020

По умолчанию --deploy-mode - клиент. Таким образом, оба нижеприведенных спарк-отправки будут работать в режиме клиента.

$spark-submit --deploy-mode client spark-job.py

и

$spark-submit spark-job.py

Если вы укажете --master yarn, теперь он будет работать в режиме пряжи в режиме клиента.

Примечание: --master Главный URL-адрес для кластера (например, для автономной искры кластера: //23.195.26.187: 7077) Типы режимов * автономный * YARN * Mesos * Kubernetes

- режим развертывания: развертывание драйвера на рабочих узлах (кластер) или локально в качестве внешнего клиента (клиента) (по умолчанию: клиент) * клиент * кластер

...