Что означает Num Off Switch Containers в пользовательском интерфейсе Yarn Resource Manager? - PullRequest
0 голосов
/ 23 ноября 2018

У меня есть работа ETL, занимающая много ресурсов процессора и памяти и работающая в течение длительного времени.Первое, что я заметил при отладке, это следующее (из задания в графическом интерфейсе менеджера ресурсов)

  • Num Node Local Containers (удовлетворено) = 6
  • Num Rack Local Containers (удовлетворено) = 00
  • Num Off Switch Containers (удовлетворено) = 11367

У нас всего две стойки.Мне нужна помощь с ответом на следующие три вопроса

  1. Что означает Num Off Switch Containers?
  2. Как я могу определить эти контейнеры "off off switch" и какой узел (узлы)они работали?
  3. Способствуют ли контейнеры с выключенными коммутаторами замедлять обработку заданий?

1 Ответ

0 голосов
/ 23 ноября 2018

1. Что означает Num Off Switch Containers? Вышеуказанный случай имеет значение off switch locality от планировщика задержки: -

                | router|
              +-----------+
             /             \
    +-----------+        +-----------+
    |rack switch|        |rack switch|
    +-----------+        +-----------+
    | data node |        | data node |
    +-----------+        +-----------+
    | data node |        | data node |
    +-----------+        +-----------+

Это худший сценарий данныхлокальность (1.Node local 2. Rack local 3. off switch) с помощью Планировщик задержки , а память и vcores распределяются на другой стойке через коммутатор и гораздо более высокой пропускной способности.

Планировщик задержки назначает входящую задачу узлу выключения, который расположен в другой стойке, чтобы избежать голодания задачи

Для разных планировщиков в YARN имеются переменные конфигурации для порога узла и стойки: -

CAPACITY SCH : - С этим свойством yarn.scheduler.capacity.rack-locality-additional-delay выполняется расслабляющая локализация для назначений контейнеров вне коммутатора.

acity-scheduler.xml

<property>
  <name>yarn.scheduler.capacity.node-locality-delay</name>
  <value>-1</value>
  <description>Number of missed scheduling opportunities after which the              CapacityScheduler attempts to schedule rack-local containers.
Typically this should be set to number of racks in the cluster, this
feature is disabled by default, set to -1.
 </description>
</property>

https://issues.apache.org/jira/browse/YARN-4189 - JIRA для улучшения В случае, если кластер использует планировщик Fair: -

https://hadoop.apache.org/docs/r2.7.4/hadoop-yarn/hadoop-yarn-site/FairScheduler.html

yarn.scheduler.fair.locality.threshold.rack

https://cs.stanford.edu/~matei/papers/2010/eurosys_delay_scheduling.pdf для планирования задержки.

2.Какя могу идентифицировать эти контейнеры "выключения" и на каком узле (ах) они работали?

Чтобы просмотреть контейнеры для приложения, я считаю, что нам нужно перейти к конкретной попытке приложения с помощью идентификатора попытки, и там мыможно найти conatainer и его узел.Я не нашел прямой ссылки на отключение контейнера выключателя в RM ui

3. Помогает ли отключение контейнера выключателя сократить время обработки задания?

Да, сверху мы можемВ заключение отметим, что нагрузка на сеть замедлит обработку заданий.

...