Этим утром мы испытали время простоя чуть более 5 минут на нашем кластере Google CloudSQL для PostgreSQL High Available (HA). Это был период обслуживания, который Google требует от вас предоставить.
Google ясно знает, зачем им нужно окно обслуживания (см. здесь ). Что нас поразило, так это продолжительность простоя и отсутствие аварийного переключения.
В документации ясно, что обслуживание выполняется для экземпляра (а не для кластера в целом). Итак, почему резерв не был выполнен, как задокументировано здесь ? Говорят, это может занять до 60 секунд. Но это заняло чуть более 5 минут.
А потом еще раз; это плановое техническое обслуживание. Автоматическое аварийное переключение не должно происходить, если вы ожидаете.
Мы неправильно истолковали документацию, есть ли у нас нереальные ожидания или мы неправильно настроили наше приложение?