Кардиостимулятор кластер останавливает все ресурсы навсегда - PullRequest
0 голосов
/ 01 мая 2020

Можно ли настроить группу ресурсов Pacemaker таким образом, чтобы в случае тайм-аута ресурса при вызове какой-либо операции (монитор, запуск, остановка могли быть проигнорированы), диспетчер кластера перенесет ресурсы на резервный узел? Если на резервном узле снова возникнет проблема, он вернет ресурсы на основной узел и т. Д. c. Повторная попытка будет продолжаться в течение 5 часов или даже бесконечно.

В реальной ситуации, когда внешние системы не работают, перезапуск является единственным способом сделать обслуживание доступным как можно скорее.

Длинная история здесь: Я создаю менеджеры ресурсов для OCI Publi c и Private IP. В облачном Oracle назначении плавающего маршрутизируемого IP-адреса и внутреннего требуется взаимодействие с OCI API для настройки стороны виртуальной сети. Я следовал за Образцовым Кодексом; сделал несколько ошибок, чтобы, наконец, код был передан в производство. Группа ресурсов выглядит следующим образом: плавающие IP-адреса, маршруты и служба systemd. Я настроил порог миграции на 5, а привязку ресурса - на 100.

 Resource Group: libreswan
 ipsec_cluster_routing_no1  (ocf::heartbeat:Route): Started node1
 ipsec_cluster_public_ip    (ocf::heartbeat:oci_publicip):  Started node1
 ipsec_cluster_private_ip_no1   (ocf::heartbeat:oci_privateip): Started node1
 ipsec_cluster_private_ip_no2   (ocf::heartbeat:oci_privateip): Started node1
 ipsec_cluster_inet_ip_no1  (ocf::heartbeat:IPaddr2):   Started node1
 ipsec_cluster_inet_ip_no2  (ocf::heartbeat:IPaddr2):   Started node1
 ipsec_cluster_routing_no2  (ocf::heartbeat:Route): Started node1
 ipsec_cluster_libreswan    (systemd:ipsec):    Started node1

Недавно из-за временной недоступности OCI API менеджер кластера остановил всю группу ресурсов из-за 30 se c. тайм-аут для операции monitor () на одном из ресурсов oci_privateip.

В журналах я вижу 5 последовательностей повторов: монитор, остановка, запуск. Но после этого менеджер кластера сдается, оставляя ресурсы в состоянии Stopped. Я хотел бы, чтобы менеджер кластера продолжал повторяться.

1 Ответ

0 голосов
/ 07 мая 2020

решаемая.

  sudo pcs resource meta $res failure-timeout=120
  sudo pcs resource meta $res migration-threshold=5

делает «отказавший» узел готовым забрать ресурсы через 120 секунд. Отказавший узел перед отказом будет повторяться 5 раз, поэтому при тайм-ауте 30 se c будет повторяться попытка в течение 2,5 минут.

Дополнительная информация: https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/6/html/configuring_the_red_hat_high_availability_add-on_with_pacemaker/s1-resourceopts-haar

...