Как я могу ограничить каждый раздел RDD только 'n' записями? - PullRequest
0 голосов
/ 20 сентября 2019

Есть ли способ, где я могу указать для каждого раздела JavRDD только n записей?

 JavaRDD<String> res = rdd.mapPartitions((Iterator<String> iter) -> {
            Iterable<String> iterable = () -> iter;
            return StreamSupport.stream(iterable.spliterator(), false)
                    .map(s -> Dummy.getResponse(s, b))
                    .iterator();
        });

1 Ответ

0 голосов
/ 20 сентября 2019

Если вы знаете, сколько записей у вас есть, вы можете определить количество разделов, которое вам нужно для хранения n записей, а затем использовать rdd.repartition(number of partitions)

См. Здесь: https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD@repartition(numPartitions:Int)(implicitord:Ordering[T]):org.apache.spark.rdd.RDD[T]

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...