Переключение из локального режима в кластерный режим в Spark, к сожалению, не так просто, но это хорошо документированный процесс.Вы также должны будете убедиться, что ваши файлы (если вы их используете) доступны с каждого исполнительного узла кластера, возможно, поместив их в HDFS.
Сначала вы должны убедиться, что клиент Hadoopнастроенный на машине, на которой вы выполняете код, и затем вы можете выполнить свой код.
Как правило, вы будете использовать spark-submit
как в:
$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--queue thequeue \
examples/jars/spark-examples*.jar \
10
Но вы также должны иметь возможностьвыполните его так:
SparkSession spark = SparkSession.builder()
.appName("app")
.master("yarn")
.getOrCreate();
Более подробную информацию вы найдете по адресу: https://spark.apache.org/docs/latest/running-on-yarn.html.