Служба DCOS зависла без видимой причины - PullRequest
0 голосов
/ 20 декабря 2018

Мой сервис застрял, скорее всего, из-за недоступности ресурса

dcos marathon debug summary /my-service
RESOURCE     REQUESTED  MATCHED  PERCENTAGE  
ROLE         [*]        5 / 6    83.33%      
CONSTRAINTS  ---        5 / 5    100.00%     
CPUS         4          0 / 5    0.00%       
MEM          416        0 / 0    ---         
DISK         10         0 / 0    ---         
PORTS        [0]        0 / 0    ---   

Я на 100% уверен, что запрашиваемые cpu и memory доступны;

Кроме того,что такое ограничение роли не выполняется?

изменить: это несмотря на тот факт, что при наведении курсора на графический интерфейс говорит для процессоров (что я не могу найти), что Requested: 0.4 /Received 4

и этот стиль не работает ..

edit: здесь - это сущность с расширенной информацией о мезо-рабах

Ответы [ 2 ]

0 голосов
/ 27 декабря 2018

Кроме того, что это ограничение роли не выполняется?

Роли, также называемые «ролями ресурсов», помогают отделить разные группы ресурсов друг от друга.Например, в стандартном кластере DC / OS все ресурсы общедоступных узлов зарезервированы для роли slave_public.

Когда Marathon получает предложение ресурсов, он принимает во внимание роль, для которой эти ресурсы зарезервированы,В вашем случае Marathon отклонил одно предложение ресурсов, поскольку ресурсы не принадлежали роли по умолчанию *.

. Подробнее о ролях ресурсов см. В документации Mesos . * 1013.*

Я проверил вывод конечной точки /mesos/slaves из списка и обнаружил, что в вашем кластере все агенты, кроме одного, не имеют доступных ресурсов для вашей службы:

10.11.17.23, 10.11.17.250, 10.11.17.41, 10.11.17.72 и 10.11.17.123 имеют только 2 процессора.

10.11.16.12 имеет 4 процессора, но все они зарезервированы для роли spave_public.

10.11.17.46 имеет всего 8 ЦП, 2,5 ЦП зарезервированы для роли slave_public, а оставшихся 5,5 должно быть действительно достаточно для /my-service.Похоже, по какой-то причине этот агент Mesos не отправляет предложения ресурсов Мастеру.

Проверьте журналы этого агента (journalctl -u dcos-mesos-slave) на наличие ошибок.Тот факт, что он был зарегистрирован в кластере на 4 часа позже, чем другие агенты (13:39:44 против 09:42:51), немного подозрительно.

Проверьте главные журналы (journalctl -u dcos-mesos-master), еслиMesos отправляет любые предложения ресурсов от этого агента на Марафон.

Проверьте журналы марафона (journalctl -u dcos-marathon), если Марафон получает предложения ресурсов от этого агента и если да, причина отклонения.

Эта статья в блоге Месосферы может дать вам еще несколько идей.

0 голосов
/ 21 декабря 2018

В DCOS вы можете легко отлаживать застрявшие развертывания. Здесь - руководство, как это сделать.

По сути, вам нужно перейти на страницу отладки , и вы должны увидеть, почему предложения ресурсов отклоняются.

enter image description here

...