Задания пула планировщика Spark не работают параллельно, как я ожидал - PullRequest
0 голосов
/ 22 марта 2019

Я пытаюсь запустить два действия искры, как показано ниже, и ожидаю, что они будут работать параллельно, так как они оба используют разные пулы.Означает ли планирование с использованием пулов, что различные независимые действия будут выполняться параллельно?Я имею в виду, что если у меня 200 ядер, то pool1 использует 100 ядер, а pool2 использует 100 ядер, а затем обрабатывает действие.В моем случае после того, как первое действие с фреймом данных завершено в пуле 1, запускается действие с фреймом 2 данных.

spark.setLocalProperty("spark.scheduler.pool","pool1")
dataframe.show(100,false)

spark.setLocalProperty("spark.scheduler.pool","pool2")
dataframe2.show(100,false)

Моя конфигурация пула xml

<?xml version="1.0"?>

<allocations>
  <pool name="pool1">
    <schedulingMode>FAIR</schedulingMode>
    <weight>1</weight>
  </pool>
  <pool name="pool2">
    <schedulingMode>FAIR</schedulingMode>
    <weight>1</weight>
  </pool>
</allocations>

1 Ответ

0 голосов
/ 22 марта 2019

Согласно заданным деталям, ваша работа должна выполняться параллельно на основе конфигурации искры, но есть несколько параметров, которые необходимо учитывать,

  1. Является ли YARN вашим менеджером кластера?и если это так, вы настроили пул в конфигурации в YARN.

  2. Я вижу, что вы используете планировщик FAIR, что означает, что планировщик переопределяется, а затем настроил то же самое в YARN?

Для настройки планировщика FAIR перейдите по ссылке ниже, все подробно описано, http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...