Alex Garcia 23 апреля 2019 1

Как выполнить код PySpark в удаленном кластере?

Alex Garcia / 23 апреля 2019

Я использую удаленный кластер Spark с YARN. Я пытаюсь выполнить этот код в Windows и отправить код для выполнения в кластере Spark:

from pyspark import SparkContext, SparkConf
from operator import add

conf = SparkConf().setAppName("WordCount").setMaster("yarn-cluster")

sc = SparkContext(conf = conf)
data = sc.parallelize(list("Hello World"))
counts = data.map(lambda x: (x, 1)).reduceByKey(add).sortBy(lambda x:     x[1], ascending=False).collect()
for (word, count) in counts:
print("{}: {}".format(word, count))
sc.stop()

У меня есть файлы conf в клиенте Windows, и я создаю необходимые переменные PATH, но я получаю эту ошибку:

Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is not applicable to Spark shells.

Похоже, что таким способом вы можете работать только в режиме клиента.

Это значит, что для выполнения кода из Windows мне нужно иметь spark-submit?
Какие элементы Spark необходимо установить в клиенте Windows, из которого я хочу вызвать Spark для выполнения кода?

...