Mapreduce требует больше ресурсов и меняет очередь - PullRequest
0 голосов
/ 05 июня 2018

У меня есть задание MapReduce, которое выполняет более 170 миллионов записей.Это приводит к потреблению 98% ресурсов очереди и 89% ресурсов кластера.Административная группа рекомендует создать новую очередь с ограниченной конфигурацией, и я должен поместить свою работу в эту очередь.

Вот вопросы, которые у меня есть: -

1- Как я могу нажатьмое задание mapreduce ("hadoop jar") с минимальным изменением новой очереди?

2- Поскольку вновь созданная очередь имеет ограниченные ресурсы, что, если емкость очереди заполнена?Это приведет к долгосрочному запуску или сбою задания?

3- Есть ли какой-либо другой оптимальный способ запретить заданию использовать все ресурсы, мы в порядке, если задание выполняется немного дольше.

Пожалуйста, сообщите.Любая помощь будет отличной.

1 Ответ

0 голосов
/ 11 июня 2018

Если вы используете планировщик Capacity / Fair Share, и ваш администратор назначает очередь:

Первый сценарий (Capacity):

Тогда произойдет следующее:, задание займет много времени, но не получится.

Если ваше задание использует все свои ресурсы, а в другой очереди есть ресурсы, которые не используются никаким другим заданием, тогда ваш текущийзадание также может использовать эти ресурсы.

Чтобы повысить производительность, вы можете увеличить количество менеджеров узлов, чтобы ресурсы также увеличивались, и, кроме того, задание будет распределяться по большему количеству узлов, что приведет к снижениюзадержка.

Второй сценарий (справедливая доля)

В этом случае

предположим, что у вас есть очередь из 100% ресурсов, первое задание будетпотреблять все ресурсы, и если поступит любая другая работа, ресурсы будут поровну разделены на количество работ, т. е. общее количество ресурсов / нет.заданий.

Опять же, задание будет продолжать выполняться, если для этого задания предоставлены минимальные ресурсы.Тем не менее, потребление времени будет больше, что не является проблемой в вашем случае.

...