Сброс OSD кластера Ceph во время тестов ввода / вывода на rbd - PullRequest
0 голосов
/ 04 января 2019

Я создал свой первый маленький кластер dev / test CEPH, который состоит из 6 узлов: admin, monitor, OSD1, OSD2, manager и client. Все они созданы в небольшой виртуальной среде, небольшими средствами: каждый сервер имеет 1vCPU, 512 МБ оперативной памяти, 2vNIC, Centos 7.

Все работает нормально, пока я не начал тестировать устройства RBD. Устройство RBD сопоставляется с клиентским хостом в кластере ceph, а затем оно представляется через iscsi моему ПК (windows 10), который также является хост-машиной для виртуальной среды, в которой работает этот кластер ceph.

Теперь, когда я создал раздел NTFS на сыром iscsi lun и запустил несколько тестов производительности с копированием файлов (.pdf, .avi, .exe и т. Д.) Через некоторое время, а также передаваемых файлов - перестал отвечать на любые команды, Процесс копирования также остановился, и через несколько минут он снова начал отвечать.

Я собираю несколько журналов, но понятия не имею, что случилось и почему. Возможно ли, что на osd или узле монитора недостаточно ресурсов?

2019-01-04 14:37:50.163206 mon.ceph-mon [INF] osd.0 failed (root=default,host=ceph-osd1) (2 reporters from different host after 124.464921 >= grace 20.000000)
2019-01-04 14:37:50.327139 mon.ceph-mon [WRN] Health check failed: 4 slow ops, oldest one blocked for 57 sec, osd.3 has slow ops (SLOW_OPS)
2019-01-04 14:37:50.401706 mon.ceph-mon [INF] osd.2 failed (root=default,host=ceph-osd1) (2 reporters from different host after 128.587813 >= grace 20.000000)
2019-01-04 14:37:50.447750 mon.ceph-mon [WRN] Health check failed: 2 osds down (OSD_DOWN)
2019-01-04 14:37:50.447841 mon.ceph-mon [WRN] Health check failed: 1 host (2 osds) down (OSD_HOST_DOWN)

Все журналы кластера Ceph

...