Как определить количество рабочих giraph, чтобы установить в аргумент -w? - PullRequest
0 голосов
/ 02 сентября 2018

Я использую кластер ecoop hadoop, который состоит из 20 компьютеров c3.8xlarge, каждая из которых имеет 60 ГБ ОЗУ и 32 виртуальных ЦП. На каждой машине я настраивал параметры пряжи и картографирования, как указано здесь https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hadoop-task-config.html,, как показано ниже:

c3.8xlarge
Configuration Option    Default Value
mapreduce.map.java.opts -Xmx1331m
mapreduce.reduce.java.opts  -Xmx2662m
mapreduce.map.memory.mb 1664
mapreduce.reduce.memory.mb  3328
yarn.app.mapreduce.am.resource.mb   3328
yarn.scheduler.minimum-allocation-mb    32
yarn.scheduler.maximum-allocation-mb    53248
yarn.nodemanager.resource.memory-mb 53248

Теперь, какие критерии я должен использовать, чтобы определить наиболее подходящее количество рабочих для использования с гирафом? То есть какое число я должен использовать для аргумента -w? Связаны ли эти критерии с вышеуказанными настройками?

1 Ответ

0 голосов
/ 03 сентября 2018

Не существует оптимального числа, но большинство параллельных рабочих, которых вы можете иметь приблизительно, можно рассчитать следующим образом.

Каждый NodeManager имеет 53248 МБ, умножьте это на количество подчиненных узлов

Вычтите из этого значения только одну am.resource.mb, поскольку для всех заданий требуется мастер приложения.

Затем разделите это на большее из памяти вашего картографа или редуктора для общего числа задач MapReduce, которые могут выполняться одновременно

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...