Я недавно построил 3 узла Ceph
кластеров.На каждом узле было семь жестких дисков по 1 ТБ для OSD, поэтому у меня есть максимум 21 ТБ дискового пространства для Ceph
.
Однако, когда я запустил рабочую нагрузку для записи данных в Ceph
, она переходит в состояние Err
, и в него больше нельзя записывать данные.
Вывод ceph -s
:
cluster:
id: 06ed9d57-c68e-4899-91a6-d72125614a94
health: HEALTH_ERR
1 full osd(s)
4 nearfull osd(s)
7 pool(s) full
services:
mon: 1 daemons, quorum host3
mgr: admin(active), standbys: 06ed9d57-c68e-4899-91a6-d72125614a94
osd: 21 osds: 21 up, 21 in
rgw: 4 daemons active
data:
pools: 7 pools, 1748 pgs
objects: 2.03M objects, 7.34TiB
usage: 14.7TiB used, 4.37TiB / 19.1TiB avail
pgs: 1748 active+clean
Исходя из моего понимания, поскольку осталось еще 4,37 ТБ свободного места, Ceph
сама должна позаботиться о том, как сбалансировать рабочую нагрузку.и сделайте так, чтобы каждое экранное меню не находилось в состоянии full
или nearfull
.Но результат не работает, как я ожидал, 1 full osd
и 4 nearfull osd
обнаруживается, здоровье составляет HEALTH_ERR
.
Я не могу посетить Ceph
с hdfs
или s3cmd
больше, поэтому здесь возникает вопрос:
1, Любое объяснение о текущей проблеме?
2, Как я могу восстановить ее?Удалить данные на узле Ceph напрямую с помощью ceph-admin и перезапустить Ceph?