Требуется ли установить спарк на всех узлах кластера? - PullRequest
0 голосов
/ 14 июня 2019

Я новичок в Spark и изучаю архитектуру.Я понял, что spark поддерживает 3 менеджера кластера, таких как YARN, Standalone и Mesos.

В режиме кластера пряжи драйвер Spark находится в диспетчере ресурсов, а исполнители - в менеджере контейнеров узла пряжи.

В автономном режимеРежим кластера Драйвер Spark находится в главном процессе, а исполнители - в подчиненном процессе.

Если мое понимание верно, то необходимо ли устанавливать Spark на все узлы Диспетчер пряжи кластера Yarn, подчиненные узлы автономного кластера

1 Ответ

2 голосов
/ 14 июня 2019

Если вы используете пряжу в качестве менеджера в кластере с несколькими узлами, вам не нужно устанавливать spark на каждом узле. Yarn распределяет двоичные файлы искры по узлам при отправке задания.

https://spark.apache.org/docs/latest/running-on-yarn.html

Для запуска Spark на YARN требуется бинарный дистрибутив Spark, созданный с поддержкой YARN. Двоичные дистрибутивы можно скачать со страницы загрузок на сайте проекта. Чтобы построить Spark самостоятельно, см. Building Spark.

Чтобы сделать JAR-файлы Spark доступными со стороны YARN, вы можете указать spark.yarn.archive или spark.yarn.jars. Для получения подробной информации, пожалуйста, обратитесь к Spark Properties. Если не указаны ни spark.yarn.archive, ни spark.yarn.jars, Spark создаст zip-файл со всеми jar-файлами в каталоге $ SPARK_HOME / jars и загрузит его в распределенный кеш.

...