когда я подключаюсь удаленно к свече, используя код Java и считая слова и сохраняю в файл - PullRequest
0 голосов
/ 24 июня 2019

WARN TaskSchedulerImpl: начальное задание не приняло никаких ресурсов; проверьте интерфейс кластера, чтобы убедиться, что работники зарегистрированы и имеют достаточные ресурсы

public static void main(String[] args) throws Exception {
    System.setProperty("hadoop.home.dir", "C://hadoop//");
    // Create a Java Spark Context.
    SparkConf sparkConf = new SparkConf().setAppName("wordCount").setMaster("spark://X.X.X.XX:XXXX");
    sparkConf.set("spark.cores.max","6");
    sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");
    sparkConf.set("spark.sql.tungsten.enabled", "true");
    sparkConf.set("spark.default.parallelism", "4");
    sparkConf.set("spark.app.id", "YourId");
    sparkConf.set("num-executors", "3");
    sparkConf.set("driver-memory", "4g");
    sparkConf.set("executor-memory ", "2g");
    sparkConf.set("executor-cores", "4");
    JavaSparkContext sc = new JavaSparkContext(sparkConf);
    // Load our input data.
    System.setProperty("hadoop.home.dir", "C://hadoop//");

    JavaRDD<String> inputFile = sc.textFile("D://sys1.txt");

    JavaRDD<String> wordsFromFile = inputFile.flatMap(content -> Arrays.asList(content.split(" ")).iterator());

    @SuppressWarnings("unchecked")
    JavaPairRDD<String, String> countData = wordsFromFile.mapToPair(t -> new Tuple2(t, 1))
            .reduceByKey((x, y) -> (int) x + (int) y);

    countData.saveAsTextFile("CountData");
}

}

Я хочу считать слова из файла с помощью spark-rdd и сохранять их в одном файле.

...