Как указать расположение кластера в HADOOP_CONF_DIR? - PullRequest
0 голосов
/ 06 мая 2018

Документация Spark о подаче заявок гласит:

Подключиться к кластеру YARN в режиме клиента или кластера в зависимости от значения --deploy-mode. Местоположение кластера будет найдено на основе переменной HADOOP_CONF_DIR или YARN_CONF_DIR.

Боюсь, я этого не понял. Я обнаружил, что HADOOP_CONF_DIR установлен на /etc/hadoop, который содержит много сценариев оболочки и файлов конфигурации.

Где именно я должен найти местоположение кластера там?

1 Ответ

0 голосов
/ 06 мая 2018

HADOOP_CONF_DIR - это каталог с файлами конфигурации, которые библиотеки Hadoop используют для различных вещей, специфичных для Hadoop. Я написал различные специфичные для Hadoop вещи , чтобы подчеркнуть, что здесь не так много всего, связанного с Spark.

Что более важно, HADOOP_CONF_DIR также может указывать на пустой каталог (который говорит, что он принимает значения по умолчанию).

Чтобы ответить на ваш вопрос, вы можете определить местоположение кластера в yarn-site.xml , используя yarn.resourcemanager.address. Если yarn-site.xml не найден, кластер YARN доступен на локальном хосте.

Где мне разместить yarn-site.xml, чтобы spark-submit использовал его?

Раньше я использовал YARN_CONF_DIR, чтобы указывать на каталог с yarn-site.xml.

YARN_CONF_DIR=/tmp ./bin/spark-shell --master yarn
...