Включение, планирование CPU в YARN действительно улучшит параллельную обработку в искре? - PullRequest
0 голосов
/ 12 ноября 2018

YARN с планировщиком емкости будет учитывать только память при выделении ресурсов для пользовательских запросов. Если я отправлю искровое задание, подобное этому "- мастер-пряжа - клиент режима deploy --driver-memory 4g --executor-memory 4g --num-executors 1 --executor-cores 3 ", пряжа выделит исполнителю память 4gb и 1 vcpu , но при выполнении задач она выполнится3 задачи параллельно.

Использует ли оно одно это ядро ​​для выполнения всех задач как набор из 3 одновременно?

Итак, если я включу планирование ЦП и CGroups (в кластере HDP),назначит ли пряжа 3 ядра vcpu и будет ли этот набор из 3 задач выполняться в каждом процессоре?Действительно ли это улучшит время обработки?

На данный момент я не могу включить планирование ЦП в моем кластере (HDP 2.6.5 centos 7.5) из-за ошибки ниже при запуске диспетчера узлов "Невозможно принудительно задействовать процессорвеса; невозможно записать в cgroup по адресу: / sys / fs / cgroup / cpu, cpuacct "

1 Ответ

0 голосов
/ 16 ноября 2018

Нет, vcores и vcpus - это действительно логическая конструкция, которая не связана с тем, что на самом деле находится в системе, но более тесно связана с тем, сколько запущено процессов. ОС (в данном случае Linux) перенесет работу на все процессоры, если процесс предназначен для этого. Большинство долго работающих Java-приложений делают это из-за работы нескольких потоков.

YARN не контролирует ядра процессора, если вы не включили CGroups. Единственное, что контролирует YARN - это использование памяти. Причина, по которой это не имеет значения, заключается в том, что типичные рабочие нагрузки Hadoop связаны с вводом-выводом, а не с процессором.

Ссылки

...