Ладья OSD после сбоя узла - PullRequest
       40

Ладья OSD после сбоя узла

0 голосов
/ 23 января 2020

В моем кластере kubernetes (v1.14.7) после обновления кластера один узел не восстановился правильно. rook osd с этого узла не был перенесен (как это объяснено в документации). Поэтому я пытаюсь вручную добавить новое OSD.

my ceph status вернуть это

здесь

и мои ceph osd tree возвращают это

здесь

Я попытался связать новый osd с узлом, используя ceph osd crush set osd.0 0.29199 root=default host=gke-dev-dev-110dd9ec-ntww

но возвращается: Ошибка ENOENT: невозможно установить идентификатор элемента 0 name 'osd.0' weight 0.29199 в местоположении {host = gke-dev-dev-110dd9e c -ntww, root = default }: не существует

У вас есть подсказка, как это исправить? Заранее спасибо

1 Ответ

0 голосов
/ 23 января 2020

Вот что я предлагаю, вместо того, чтобы пытаться сразу добавить новый osd, исправить / удалить неисправный, и он должен воссоздать.

Попробуйте это:

1 - отметка out osd: ceph osd out osd.0
2 - удалить из cru sh map: ceph osd cru sh удалить osd.0
3 - удалить заглавные буквы: ceph auth del osd.0
4 - удалить osd: ceph osd rm osd.0
5 - удалить развертывание: kubectl удалить развертывание -n your-cluster-namespace rook-ceph-osd-0
6 - редактировать раздел конфигурации вашего идентификатора osd и базовое устройство.
kubectl edit configmap -n your-cluster-namespace rook-ceph-osd-nodename-config
delete {"/ var / lib / rook": x}
7 - перезапустить ладью -оператор pod, удалив модуль rook-operator
8 - проверить работоспособность вашего кластера: ceph -s; ceph osd tree

Надеюсь, это поможет!

...