Отключение двигателя Google Kubernetes каждые 6 часов, как по маслу? - PullRequest
0 голосов
/ 07 мая 2018

Мы столкнулись со странной проблемой в GKE на GCP, когда у нас возникает от нескольких секунд до минуты, если периодически возникающие ошибки HTTP 500/520/525 при попытке доступа к нашему API каждые 6 часов 10 минут дают или занимают пару минут, а наши журналы не работают. нам еще многое дали.

Наш трубопровод выглядит так:

user request -> CloudFlare -> GKE nginx LoadBalancer (ssl termination) -> GKE router pod -> API

Нажатие CloudFlare или балансировщика нагрузки GKE напрямую показывает ту же ошибку, поэтому кажется, что проблема где-то в нашей настройке GCP.

В прошлом я сталкивался с проблемой CloudSQL Proxy , когда он обновляет сертификат SSL каждый час и вызывал очень предсказуемые, очень короткие перебои.

Есть ли у GKE аналогичная система, с которой мы могли бы столкнуться, когда она каждые 6 часов что-то делает, что вызывает у нас эти ошибки?

Отчет Pingdom: brief outage every 6h10m

1 Ответ

0 голосов
/ 18 мая 2018

Проблема оказалась в том, что только 1 из 2 требовал IP-адреса проверки работоспособности для внутренней балансировки нагрузки. Я не уверен, как это вызвало ошибку, но обновление правил брандмауэра остановило проблему. Надеюсь, что это поможет кому-то в будущем!

...