Задание dmlx XGBoost застряло в Yarn в состоянии «ПРИНЯТО» при последующей передаче - PullRequest
0 голосов
/ 10 июня 2019

У меня есть кластер из 3 узлов в AWS (1 ведущий и 2 ведомых)
Конфигурации:
мастер (8 vCPU, 16 ГБ)
slave1 (4 vCPU, 8 ГБ)
slave1 (4 vCPU, 8 ГБ)

когда я отправляю задание dmlc-xgboost на пряжу, оно запускается, как и ожидалось, но если я снова отправляю то же самое задание через 5 минут, оно застревает. Если задания подаются в течение 6 минут или около того, все работает отлично.

Я попытался проверить причину застревания пряжи, и она говорит что-то вроде ниже

[Sun Jun 09 09:03:53 +0000 2019] Приложение добавлено в планировщик и еще не активирован. Превышен предел ресурсов AM AM . подробности : AM Partition =; AM Resource Request = ; Предел ресурса очереди для AM =; Пользователь AM Resource Limit of the queue =; Использование ресурсов AM AM =;

попытался изменить параметры пряжи после прочтения всех тем в Интернете, но у Хавнт еще не было удачи.

Ниже приведены мои конфигурации, которые я сейчас использую.

Емкость-scheduler.xml

пряжа.Sheduler.capacity.maximum-приложений: 10000
yarn.scheduler.capacity.maximum-am-resource-процент: 0,9
yarn.scheduler.capacity.resource-calculator: org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator
yarn.scheduler.capacity.root.queues: по умолчанию

пряжа site.xml

yarn.acl.enable: 0
yarn.resourcemanager.hostname: node-master
yarn.nodemanager.aux-services: mapreduce_shuffle
yarn.nodemanager.resource.memory-mb: 4608
yarn.scheduler.maximum-selection-mb: 4608
yarn.scheduler.minimum-selection-mb: 1536
yarn.nodemanager.vmem-check-enabled: false
yarn.app.mapreduce.am.resource.mb: 3072

mapred-site.xml

mapreduce.framework.name: пряжа
yarn.app.mapreduce.am.resource.mb: 1536
mapreduce.map.memory.mb: 1536
mapreduce.reduce.memory.mb: 3072

Буду признателен за любую помощь.

...