У меня проблема с контроллером-диспетчером и планировщиком, который не отвечает, это не связано с обнаруженными мной проблемами на github ( rancher # 11496 , azure # 173 ,…)
Два дня назад у нас было переполнение памяти одним POD на одном узле в нашем кластере высокой доступности с 3 узлами.После того, как это веб-приложение ранчера стало недоступным, мы нашли скомпрометированный модуль и масштабировали его до 0 по сравнению с kubectl.Но это заняло некоторое время, чтобы все выяснить.
С тех пор веб-приложение ранчера работает нормально, но непрерывные оповещения от контроллера-менеджера и планировщика не работают.Оповещения не состоят, иногда они оба работают, иногда их URL-адреса проверки работоспособности отклоняют соединение.
NAME STATUS MESSAGE ERROR
controller-manager Unhealthy Get http://127.0.0.1:10252/healthz: dial tcp 127.0.0.1:10252: connect: connection refused
scheduler Healthy ok
etcd-0 Healthy {"health": "true"}
etcd-2 Healthy {"health": "true"}
etcd-1 Healthy {"health": "true"}
Перезапуск диспетчера контроллера и планировщика на скомпрометированном узле не эффективен.Даже перезагрузка всех компонентов с
docker restart kube-apiserver kubelet kube-controller-manager kube-scheduler kube-proxy
также была неэффективной.
Может кто-нибудь помочь мне разобраться с действиями по устранению неполадок и устранению этой проблемы без простоев при запуске?контейнеры?
Узлы размещаются в DigitalOcean на серверах с 4 ядрами и 8 ГБ ОЗУ каждый (Ubuntu 16, Docker 17.03.3).
Заранее спасибо!