Есть ли способ установить количество разделов при объявлении вашего RDD
Я не вижу способа сделать это после пролистывания документации.Я вижу параллелизацию (), но она занимает список и, кажется, не относится к моей ситуации.
Вот как я все настраиваю:
SparkConf sparkConf = new SparkConf().setAppName("MyApp")
.set("master", "yarn-cluster")
.set("spark.submit.deployMode" ,"cluster")
.set("spark.executor.instances","8")
.set("spark.executor.cores","4")
.set("spark.executor.memory","5120M")
.set("spark.driver.memory","5120M")
.set("spark.yarn.memoryOverhead","10000M")
.set("spark.yarn.driver.memoryOverhead","10000M")
.set("spark.dynamicAllocation.enabled", "true");
Configuration conf = new HBaseConfiguration().create();
avaPairRDD<ImmutableBytesWritable, Result> hbaseRdd = sparkContext.newAPIHadoopRDD(conf,TableInputFormat.class, ImmutableBytesWritable.class, Result.class);
hbaseRdd.saveAsHadoopFile(fileSystemPath, TextInputFormat.class,LongWritable.class, TextOutputFormat.class, GzipCodec.class);
Я хочу, чтобы он работал с несколькими частями
Я вижу, что вы можете сделать sparkContext.parallelize (...). newAPIHadoopRDD ..... но это не кажется применимым в моей ситуации.