Как установить количество «мапперов» / разделов в Spark - PullRequest
0 голосов
/ 21 февраля 2019

У меня есть сомнения в некоторых кодах, которые я читал.Они обозначают «разделы» как «карты» (думая как стиль MapReduce) таким же образом:

  • --total-executor-cores #maps - количество карт.
  • var data = sc.textFile(inputFile, nPartitions)Комментарий к коду гласит: "nPartitions - это число карт"

Итак, концептуально они одинаковы?

Ответы [ 2 ]

0 голосов
/ 21 февраля 2019

Для управления определенным разделением RDD вы можете использовать метод " repartition " или " coalesce ".Если вы хотите, чтобы он был на всех rdds для всех картографов, вы должны использовать: sparkConf.set (" spark.default.parallelism ", s "$ {количество картографов, которые вы хотите}") Если вы хотитедля управления тасовкой (редукторами) sparkConf.set (" spark.sql.shuffle.partitions ", s "$ {число редукторов, которые вы хотите}")

Количество ядер - этоколичество ядер, которые вы назначаете для работы в кластере.

0 голосов
/ 21 февраля 2019

Ты прав.количество ядер сопоставляется с количеством задач, которые вы можете вычислить в ||.этот номер является фиксированным.Но количество разделов меняется в зависимости от работы.для каждого раздела у нас есть задача, и задача обрабатывается ядром.Количество разделов определяет количество задач.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...