Переустановка мастеров DCOS без разрушения кластера - PullRequest
0 голосов
/ 16 января 2019

У меня установлен кластер DCOS, содержит 3 мастера и 3 ведомых, он работал нормально, пока один из мастеров не получил / var на 100% дискового пространства, «вход в систему dcos auth» перестал работать, и я получил сообщение « Произошла ошибка "при попытке входа в систему с помощью графического интерфейса.

Пространство освобождено из / var и теперь оно составляет 84%. но проблема все еще существовала, после долгого ожидания я попытался перезапустить службу chronyd и службу dcos.target, но это не помогло.

Теперь у меня есть 3 мастера с 20 сервисами со статусом «активация», см. Ниже:

[id@cluster ~]$ sudo systemctl | grep dcos | grep activating
dcos-adminrouter.service                                                                                   loaded activating auto-restart       Admin Router Master: exposes a unified control plane proxy for components and services using NGINX
dcos-backup-master.service                                                                                 loaded activating start-pre    start DC/OS Backup Master: backup & restore service
dcos-bouncer.service                                                                                       loaded activating auto-restart       DC/OS Identity and Access Manager (Bouncer): controls access to DC/OS components and services by managing users, user groups, service accounts, permissions, and identity providers
dcos-ca.service                                                                                            loaded activating start-pre    start DC/OS Certificate Authority: issues signed digital certificates for secure communication
dcos-cluster-linker.service                                                                                loaded activating auto-restart       DC/OS Cluster Linker Service: service for DC/OS Cluster Linker
dcos-cockroach.service                                                                                     loaded activating auto-restart       CockroachDB: Database for the DC/OS IAM
dcos-cosmos.service                                                                                        loaded activating auto-restart       DC/OS Package Manager (Cosmos): installs and manages DC/OS packages from DC/OS package repositories, such as the Mesosphere Universe
dcos-diagnostics.service                                                                                   loaded activating auto-restart       DC/OS Diagnostics Master: aggregates and exposes component health
dcos-history.service                                                                                       loaded activating auto-restart       DC/OS History: caches and exposes historical system state
dcos-licensing.service                                                                                     loaded activating auto-restart       DC/OS Licensing: licensing audit service
dcos-log-master.service                                                                                    loaded activating auto-restart       DC/OS Log Master: exposes master node and component logs
dcos-marathon.service                                                                                      loaded activating auto-restart       Marathon: container orchestration engine
dcos-mesos-dns.service                                                                                     loaded activating start-pre    start Mesos DNS: domain name based service discovery
dcos-mesos-master.service                                                                                  loaded activating start-pre    start Mesos Master: distributed systems kernel
dcos-metrics-master.service                                                                                loaded activating auto-restart       DC/OS Metrics Master: exposes node metrics
dcos-metronome.service                                                                                     loaded activating auto-restart       DC/OS Jobs (Metronome): job orchestration
dcos-net.service                                                                                           loaded activating auto-restart       DC/OS Net: A distributed systems & network overlay orchestration engine
dcos-secrets.service                                                                                       loaded activating auto-restart       DC/OS Secrets: provides a secure API for storing and retrieving secrets from Vault, a secret store
dcos-signal.service                                                                                        loaded activating auto-restart       DC/OS Signal: reports cluster telemetry and analytics to help improve DC/OS
dcos-vault.service 

Я попытался перезапустить службы, но это не помогло вообще, поэтому я хочу сейчас попытаться переустановить все эти мастера, чтобы сэкономить время при устранении неполадок.

я получаю эту ошибку при перезапуске любой из служб:

[id@cluster ~]$ sudo systemctl restart  dcos-mesos-master.service
Job for dcos-mesos-master.service failed because the control process exited with error code. See "systemctl status dcos-mesos-master.service" and "journalctl -xe" for details.

Кластер пуст от данных, поэтому он совершенно новый, но на нем установлено 3 подчиненных, и они работают нормально, мой вопрос, повторная установка мастеров потребует от меня также переустановить ведомые устройства ?? И как это плохо?

...