Восстановление из сбойного кластера Ceph - неактивные PG (вниз) - PullRequest
0 голосов
/ 04 января 2019

Кластер Ceph PGs неактивен / выключен.

У меня был исправный кластер, и я попытался добавить новый узел с помощью инструмента ceph-deploy.Я не ставил флаг включения noout перед добавлением узла в кластер.

Поэтому, используя инструмент ceph-deploy, я несколько раз удалял новые узлы OSD, и похоже, что Ceph пытается сбалансировать PG, и теперь эти PG находятся в неактивном / выключенном состоянии.

Я попытался восстановить одну PG, чтобы посмотреть, восстановится ли она, но это не так.Я использую ceph для управления взглядами OpenStack и виртуальными машинами.Так что теперь все новые виртуальные машины и существующие виртуальные машины работают медленно или не отвечают.

Текущий вывод дерева Ceph: (Обратите внимание, что fre201 - новый узел. Я недавно отключил службы OSD на этом узле)

[root@fre201 ceph]# ceph osd tree ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF -1 70.92137 root default -2 5.45549 host fre101 0 hdd 1.81850 osd.0 up 1.00000 1.00000 1 hdd 1.81850 osd.1 up 1.00000 1.00000 2 hdd 1.81850 osd.2 up 1.00000 1.00000 -9 5.45549 host fre103 3 hdd 1.81850 osd.3 up 1.00000 1.00000 4 hdd 1.81850 osd.4 up 1.00000 1.00000 5 hdd 1.81850 osd.5 up 1.00000 1.00000 -3 5.45549 host fre105 6 hdd 1.81850 osd.6 up 1.00000 1.00000 7 hdd 1.81850 osd.7 up 1.00000 1.00000 8 hdd 1.81850 osd.8 up 1.00000 1.00000 -4 5.45549 host fre107 9 hdd 1.81850 osd.9 up 1.00000 1.00000 10 hdd 1.81850 osd.10 up 1.00000 1.00000 11 hdd 1.81850 osd.11 up 1.00000 1.00000 -5 5.45549 host fre109 12 hdd 1.81850 osd.12 up 1.00000 1.00000 13 hdd 1.81850 osd.13 up 1.00000 1.00000 14 hdd 1.81850 osd.14 up 1.00000 1.00000 -6 5.45549 host fre111 15 hdd 1.81850 osd.15 up 1.00000 1.00000 16 hdd 1.81850 osd.16 up 1.00000 1.00000 17 hdd 1.81850 osd.17 up 0.79999 1.00000 -7 5.45549 host fre113 18 hdd 1.81850 osd.18 up 1.00000 1.00000 19 hdd 1.81850 osd.19 up 1.00000 1.00000 20 hdd 1.81850 osd.20 up 1.00000 1.00000 -8 5.45549 host fre115 21 hdd 1.81850 osd.21 up 1.00000 1.00000 22 hdd 1.81850 osd.22 up 1.00000 1.00000 23 hdd 1.81850 osd.23 up 1.00000 1.00000 -10 5.45549 host fre117 24 hdd 1.81850 osd.24 up 1.00000 1.00000 25 hdd 1.81850 osd.25 up 1.00000 1.00000 26 hdd 1.81850 osd.26 up 1.00000 1.00000 -11 5.45549 host fre119 27 hdd 1.81850 osd.27 up 1.00000 1.00000 28 hdd 1.81850 osd.28 up 1.00000 1.00000 29 hdd 1.81850 osd.29 up 1.00000 1.00000 -12 5.45549 host fre121 30 hdd 1.81850 osd.30 up 1.00000 1.00000 31 hdd 1.81850 osd.31 up 1.00000 1.00000 32 hdd 1.81850 osd.32 up 1.00000 1.00000 -13 5.45549 host fre123 33 hdd 1.81850 osd.33 up 1.00000 1.00000 34 hdd 1.81850 osd.34 up 1.00000 1.00000 35 hdd 1.81850 osd.35 up 1.00000 1.00000 -27 5.45549 host fre201 36 hdd 1.81850 osd.36 down 0 1.00000 37 hdd 1.81850 osd.37 down 0 1.00000 38 hdd 1.81850 osd.38 down 0 1.00000

Текущее состояние здоровья Ceph:

Текущее состояние кластера Ceph

~ceph -s cluster: id: XXXXXXXXXXXXXXXX health: HEALTH_ERR 3 pools have many more objects per pg than average 358887/12390692 objects misplaced (2.896%) 2 scrub errors 9677 PGs pending on creation Reduced data availability: 7125 pgs inactive, 6185 pgs down, 2 pgs peering, 2709 pgs stale Possible data damage: 2 pgs inconsistent Degraded data redundancy: 193505/12390692 objects degraded (1.562%), 351 pgs degraded, 1303 pgs undersized 53882 slow requests are blocked > 32 sec 4082 stuck requests are blocked > 4096 sec too many PGs per OSD (2969 > max 200) services: mon: 3 daemons, quorum ceph-mon01,ceph-mon02,ceph-mon03 mgr: ceph-mon03(active), standbys: ceph-mon01, ceph-mon02 osd: 39 osds: 36 up, 36 in; 51 remapped pgs rgw: 1 daemon active data: pools: 18 pools, 54656 pgs objects: 6050k objects, 10940 GB usage: 21721 GB used, 45314 GB / 67035 GB avail pgs: 13.036% pgs not active 193505/12390692 objects degraded (1.562%) 358887/12390692 objects misplaced (2.896%) 46177 active+clean 5070 down 1114 stale+down 1088 stale+active+undersized 547 activating 201 stale+active+undersized+degraded 173 stale+activating 96 activating+degraded 61 stale+active+clean 43 activating+remapped 39 stale+activating+degraded 24 stale+activating+remapped 9 activating+undersized+degraded+remapped 4 stale+activating+undersized+degraded+remapped 2 active+clean+inconsistent 1 stale+activating+degraded+remapped 1 stale+remapped+peering 1 active+undersized 1 stale+peering 1 stale+active+clean+remapped 1 down+remapped 1 stale+remapped 1 activating+degraded+remapped io: client: 967 kB/s rd, 1225 kB/s wr, 29 op/s rd, 30 op/s wr

Я не уверен, как восстановить 7125 PG, которые присутствуют в активных OSD.Любая помощь будет оценена.

1 Ответ

0 голосов
/ 21 января 2019

В luminous выпуск цеф.Релиз принудительно устанавливает максимальное количество PG как 200. В моем случае их было больше 3000+, поэтому мне нужно установить параметр max_number_of pgs в /etc/ceph/ceph.conf файле монитора и OSD как 5000, что позволило восстановить ceph.

...