(есть проблема с Apache Spark
У меня есть кластер с 10 узлами (1 ведущим и 9 ведомыми), каждый узел имеет 1048 МБ памяти.
Я работаю в области машинного обучения, поэтому я хотел бы запустить свою реализацию параллельно, но я не могу заставить ее работать - всегда есть один работник, который выполняет приложение, которое я отправляю.
Я попробовал простой пример WordCount, в котором я делю файл, но всегда получаю один и тот же результат.
Вот мои файлы
spark-env.s
ч (в каждом узле):
HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
SPARK_YARN_QUEUE="default"
export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=9"
export SPARK_WORKER_OPTS="-Dspark.deploy.defaultCores=9"
SPARK_WORKER_MEMORY=1g
Пример, который я пробовал:
val rdd = sc.textFile("path.txt" , 2 ).flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
rdd.saveAsTextFile(path)
//I tried 2 distribution hope see two worker execute
Вот конфигурация, с которой я подаю заявку:
./spark-submit --master spark://master:6066 --deploy-mode cluster --conf spark.yarn.jars=hdfs://master:9000/jars/*.jar --conf spark.default.parallelism=2 --class Accueil hdfs://master:9000/user/word2P.jar hdfs://master:9000/user/twitter.txt hdfs://master:9000/user/result
А вот и мой интерфейс Spark во время выполнения:
![enter image description here](https://i.stack.imgur.com/JXcLh.png)