Несколько дней go Я столкнулся с проблемой, когда мои узлы постоянно перезагружались
Мой стек:
1 мастер, 2 рабочих k8s-кластер с kubeadm (v1.17.1-00)
Ubuntu 18.04 x86_64 4.15.0-74-generi c
Фланелевый плагин cni (v0 .11.0)
Ладья (v1.2) cephfs для хранения. Ceph был развернут в том же кластере, где живет мое приложение
Я смог запустить кластер ceph, но когда я попытался развернуть свое приложение, которое использовало мои rook-тома, неожиданно мои модули начинали с d ie
Я получил это сообщение, когда использовал команду kubectl describe pods/name
:
Pod sandbox changed, it will be killed and re-created
В событиях k8s, которые я получил:
<Node name> has been rebooted
Через некоторое время узел оживает, но в конечном итоге умирает через 2-3 минуты.
Я попытался истощить свой узел и снова подключиться к кластеру, но после что какой-то другой узел получал эту ошибку.
Я просмотрел системные журналы ошибок вышедшего из строя узла командой journalctl -p 3
.
И обнаружил, что журналы были залиты этими сообщениями: kernel: cache_from_obj: Wrong slab cache. inode_cache but object is from ceph_inode_info
.
После поиска этой проблемы я нашел эту проблему: https://github.com/coreos/bugs/issues/2616
Оказалось, что cephfs просто не работает с некоторыми версиями ядра Linux !! Для меня ни один из них не работал:
- Ubuntu 19.04 x86_64 5.0.0-32-generi c
- Ubuntu 18.04 x86_64 4.15.0-74-generi c