Вручную установить количество партий -JavaPairRDD - PullRequest
0 голосов
/ 25 октября 2018

Есть ли способ установить количество разделов при объявлении вашего RDD

Я не вижу способа сделать это после пролистывания документации.Я вижу параллелизацию (), но она занимает список и, кажется, не относится к моей ситуации.

Вот как я все настраиваю:

    SparkConf sparkConf = new SparkConf().setAppName("MyApp")
            .set("master", "yarn-cluster")
            .set("spark.submit.deployMode" ,"cluster")
            .set("spark.executor.instances","8")
            .set("spark.executor.cores","4")
            .set("spark.executor.memory","5120M")
            .set("spark.driver.memory","5120M")
            .set("spark.yarn.memoryOverhead","10000M")
            .set("spark.yarn.driver.memoryOverhead","10000M")
            .set("spark.dynamicAllocation.enabled", "true");

Configuration conf = new HBaseConfiguration().create();
avaPairRDD<ImmutableBytesWritable, Result> hbaseRdd = sparkContext.newAPIHadoopRDD(conf,TableInputFormat.class, ImmutableBytesWritable.class, Result.class);
hbaseRdd.saveAsHadoopFile(fileSystemPath, TextInputFormat.class,LongWritable.class, TextOutputFormat.class, GzipCodec.class);

Я хочу, чтобы он работал с несколькими частями

Я вижу, что вы можете сделать sparkContext.parallelize (...). newAPIHadoopRDD ..... но это не кажется применимым в моей ситуации.

...