Spark подает параллельную работу - PullRequest
0 голосов
/ 29 апреля 2018

(есть проблема с Apache Spark У меня есть кластер с 10 узлами (1 ведущим и 9 ведомыми), каждый узел имеет 1048 МБ памяти.

Я работаю в области машинного обучения, поэтому я хотел бы запустить свою реализацию параллельно, но я не могу заставить ее работать - всегда есть один работник, который выполняет приложение, которое я отправляю.

Я попробовал простой пример WordCount, в котором я делю файл, но всегда получаю один и тот же результат.

Вот мои файлы

spark-env.s ч (в каждом узле):

HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
SPARK_YARN_QUEUE="default" 
export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=9"
export SPARK_WORKER_OPTS="-Dspark.deploy.defaultCores=9"
SPARK_WORKER_MEMORY=1g

Пример, который я пробовал:

val rdd = sc.textFile("path.txt" , 2 ).flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
rdd.saveAsTextFile(path)
//I tried 2 distribution hope see two worker execute

Вот конфигурация, с которой я подаю заявку:

./spark-submit --master spark://master:6066 --deploy-mode cluster --conf spark.yarn.jars=hdfs://master:9000/jars/*.jar --conf spark.default.parallelism=2 --class Accueil  hdfs://master:9000/user/word2P.jar hdfs://master:9000/user/twitter.txt  hdfs://master:9000/user/result

А вот и мой интерфейс Spark во время выполнения:

enter image description here

...