Гетерогенный лимит памяти кластера oop - PullRequest
0 голосов
/ 20 марта 2020

У меня низкопроизводительный кластер oop для обучения / тестирования, состоящий из разных рабочих узлов и одного главного узла. В моем mapred-site.xml я настроил yarn.app.mapreduce.am.resource.mb, mapreduce.map.memory.mb, а также mapreduce.reduce.memory.mb для каждого узла в отдельности.

Я думал семантика этого была: Если мастер приложения запускается на node0x, мастер приложения может использовать столько памяти, сколько сконфигурировано в mapred-site.xml для указанного c node0x.

Но этого не происходит: мой главный узел мой самый сложный и, таким образом, имеет наибольшее значение yarn.app.mapreduce.am.resource.mb (в любом случае он не настроен как рабочий узел, поэтому AppMaster не может быть размещен на нем). При запуске TeraSort на главном узле происходит сбой с

java.io.IOException: org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException: Invalid resource request, requested resource type=[memory-mb] < 0 or greater than maximum allowed allocation.

Значения, указанные впоследствии, что Yarn пытается выделить AppMaster столько памяти, сколько указано в yarn.app.mapreduce.am.resource.mb на главном узле - так как ни один рабочий узел не имеет такого большого объема памяти, пряжа не выделяется. Это означает, что семантика не является пределом для этой машины, но описывает стандартную настройку для запуска заданий с этой машины.

Теперь мне интересно: что делают конфигурации для каждого узла в mapred-site.xml и yarn-site.xml вообще делать? Если все взято из конфигурации на узле, выполняющем задание, имеет ли смысл отдельная конфигурация для узла? Что мне не хватает? Я думал, что пряжа просто собирается выделить самый большой AppMaster, насколько это возможно, так как значение не было указано явно.

Надеюсь, я разъяснил свою точку зрения. Другой пример: при отправке задания MapReduce из главного узла с отображением / уменьшением пределов памяти в 1G, тогда также не удастся выделить задачи сопоставления и сокращения на меньших рабочих узлах. В принципе, мне непонятно, почему у нас даже есть один mapred-site.xml на узел, если используется конфигурация с исполняющего узла.

Большое спасибо за вашу помощь.

...