Драйвер не останавливается в режиме кластера - PullRequest
0 голосов
/ 28 апреля 2018

Я настроил свой кластер (1 ведущий / 9 ведомых). Моя проблема в том, что когда я подаю заявку (через spark-submit с deploy-mode cluster), драйвер не останавливается, хотя данных мало.

Я подал заявку так:

./spark-submit \
--class wordCount \
--master spark://master:6066 --deploy-mode cluster --supervise \
--executor-cores 1 --total-executor-cores 3 --executor-memory 1g \      
hdfs://master:9000/user/exemple/word3.jar \
hdfs://master:9000/user/exemple/texte.txt
hdfs://master:9000/user/exemple/result 2

Это моя программа:

import org.apache.spark.SparkContext import
org.apache.spark.SparkContext._ import org.apache.spark.SparkConf

object SparkWordCount {   def main(args: Array[String]) {
  // create Spark context with Spark configuration
  val sc = new SparkContext(new SparkConf().setAppName("Spark Count"))

  // get threshold
  val threshold = args(1).toInt

  // read in text file and split each document into words
  val tokenized = sc.textFile(args(0)).flatMap(_.split(" "))

  // count the occurrence of each word
  val wordCounts = tokenized.map((_, 1)).reduceByKey(_ + _)

  // filter out words with fewer than threshold occurrences
  val filtered = wordCounts.filter(_._2 >= threshold)

  // count characters
  val charCounts = filtered.flatMap(_._1.toCharArray).map((_, 1)).reduceByKey(_ + _)

  System.out.println(charCounts.collect().mkString(", "))   } }

Результат: Статус заявки

...