Question

Я использую кластер ecoop hadoop, который состоит из 20 компьютеров c3.8xlarge, каждая из которых имеет 60 ГБ ОЗУ и 32 виртуальных ЦП. На каждой машине я настраивал параметры пряжи и картографирования, как указано здесь https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hadoop-task-config.html,, как показано ниже:

c3.8xlarge
Configuration Option    Default Value
mapreduce.map.java.opts -Xmx1331m
mapreduce.reduce.java.opts  -Xmx2662m
mapreduce.map.memory.mb 1664
mapreduce.reduce.memory.mb  3328
yarn.app.mapreduce.am.resource.mb   3328
yarn.scheduler.minimum-allocation-mb    32
yarn.scheduler.maximum-allocation-mb    53248
yarn.nodemanager.resource.memory-mb 53248

Теперь, какие критерии я должен использовать, чтобы определить наиболее подходящее количество рабочих для использования с гирафом? То есть какое число я должен использовать для аргумента -w? Связаны ли эти критерии с вышеуказанными настройками?

cricket_007 · Answer 1 · 03 сентября 2018

Не существует оптимального числа, но большинство параллельных рабочих, которых вы можете иметь приблизительно, можно рассчитать следующим образом.

Каждый NodeManager имеет 53248 МБ, умножьте это на количество подчиненных узлов

Вычтите из этого значения только одну am.resource.mb, поскольку для всех заданий требуется мастер приложения.

Затем разделите это на большее из памяти вашего картографа или редуктора для общего числа задач MapReduce, которые могут выполняться одновременно

Как определить количество рабочих giraph, чтобы установить в аргумент -w?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как определить количество рабочих giraph, чтобы установить в аргумент -w?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы