Если вы не укажете количество разделов, будет создан определенный в spark.default.parallelism
, значение которого вы можете проверить, запустив sc.defaultParallelism
.
Это значение зависит от того, где вы работаете, и от аппаратного обеспечения:
Согласно документации (ищите spark.default.parallelism
)
зависит от менеджера кластера:
Локальный режим: количество ядер на локальном компьютере
Mesos мелкозернистый режим: 8
Другие : общее количество ядер на всех узлах-исполнителях или 2, в зависимости от того, что больше
Вы можете указать количество разделов со вторым параметром в методе parallelize
Для экземпляр:
val rdd = sc.parallelize(List("surender","raja","kumar"), 5)
scala> rdd.partitions.length
res1: Int = 5
scala> sc.defaultParallelism
res2: Int = 4