У меня установлен кластер DCOS, содержит 3 мастера и 3 ведомых, он работал нормально, пока один из мастеров не получил / var на 100% дискового пространства, «вход в систему dcos auth» перестал работать, и я получил сообщение « Произошла ошибка "при попытке входа в систему с помощью графического интерфейса.
Пространство освобождено из / var и теперь оно составляет 84%. но проблема все еще существовала, после долгого ожидания я попытался перезапустить службу chronyd и службу dcos.target, но это не помогло.
Теперь у меня есть 3 мастера с 20 сервисами со статусом «активация», см. Ниже:
[id@cluster ~]$ sudo systemctl | grep dcos | grep activating
dcos-adminrouter.service loaded activating auto-restart Admin Router Master: exposes a unified control plane proxy for components and services using NGINX
dcos-backup-master.service loaded activating start-pre start DC/OS Backup Master: backup & restore service
dcos-bouncer.service loaded activating auto-restart DC/OS Identity and Access Manager (Bouncer): controls access to DC/OS components and services by managing users, user groups, service accounts, permissions, and identity providers
dcos-ca.service loaded activating start-pre start DC/OS Certificate Authority: issues signed digital certificates for secure communication
dcos-cluster-linker.service loaded activating auto-restart DC/OS Cluster Linker Service: service for DC/OS Cluster Linker
dcos-cockroach.service loaded activating auto-restart CockroachDB: Database for the DC/OS IAM
dcos-cosmos.service loaded activating auto-restart DC/OS Package Manager (Cosmos): installs and manages DC/OS packages from DC/OS package repositories, such as the Mesosphere Universe
dcos-diagnostics.service loaded activating auto-restart DC/OS Diagnostics Master: aggregates and exposes component health
dcos-history.service loaded activating auto-restart DC/OS History: caches and exposes historical system state
dcos-licensing.service loaded activating auto-restart DC/OS Licensing: licensing audit service
dcos-log-master.service loaded activating auto-restart DC/OS Log Master: exposes master node and component logs
dcos-marathon.service loaded activating auto-restart Marathon: container orchestration engine
dcos-mesos-dns.service loaded activating start-pre start Mesos DNS: domain name based service discovery
dcos-mesos-master.service loaded activating start-pre start Mesos Master: distributed systems kernel
dcos-metrics-master.service loaded activating auto-restart DC/OS Metrics Master: exposes node metrics
dcos-metronome.service loaded activating auto-restart DC/OS Jobs (Metronome): job orchestration
dcos-net.service loaded activating auto-restart DC/OS Net: A distributed systems & network overlay orchestration engine
dcos-secrets.service loaded activating auto-restart DC/OS Secrets: provides a secure API for storing and retrieving secrets from Vault, a secret store
dcos-signal.service loaded activating auto-restart DC/OS Signal: reports cluster telemetry and analytics to help improve DC/OS
dcos-vault.service
Я попытался перезапустить службы, но это не помогло вообще, поэтому я хочу сейчас попытаться переустановить все эти мастера, чтобы сэкономить время при устранении неполадок.
я получаю эту ошибку при перезапуске любой из служб:
[id@cluster ~]$ sudo systemctl restart dcos-mesos-master.service
Job for dcos-mesos-master.service failed because the control process exited with error code. See "systemctl status dcos-mesos-master.service" and "journalctl -xe" for details.
Кластер пуст от данных, поэтому он совершенно новый, но на нем установлено 3 подчиненных, и они работают нормально, мой вопрос, повторная установка мастеров потребует от меня также переустановить ведомые устройства ??
И как это плохо?