Простои кластера Google CloudSQL для PostgreSQL HA из-за обслуживания без отработки отказа - PullRequest
0 голосов
/ 28 августа 2018

Этим утром мы испытали время простоя чуть более 5 минут на нашем кластере Google CloudSQL для PostgreSQL High Available (HA). Это был период обслуживания, который Google требует от вас предоставить.

Google ясно знает, зачем им нужно окно обслуживания (см. здесь ). Что нас поразило, так это продолжительность простоя и отсутствие аварийного переключения.

В документации ясно, что обслуживание выполняется для экземпляра (а не для кластера в целом). Итак, почему резерв не был выполнен, как задокументировано здесь ? Говорят, это может занять до 60 секунд. Но это заняло чуть более 5 минут.

А потом еще раз; это плановое техническое обслуживание. Автоматическое аварийное переключение не должно происходить, если вы ожидаете.

Мы неправильно истолковали документацию, есть ли у нас нереальные ожидания или мы неправильно настроили наше приложение?

1 Ответ

0 голосов
/ 30 августа 2018

Как описано в документе, на который вы ссылаетесь, он предназначен только для случая сбоя экземпляра или зоны. Другими словами, только если экземпляр выходит из строя (перестает отвечать) или если в зоне, где расположен экземпляр MySQL / PostgreSQL, существует проблема, которая приводит к невозможности доступа к экземпляру, Cloud SQL автоматически переключится на обслуживание данных из Резервный экземпляр.

Кроме того, в том же документе указано, что основной экземпляр должен находиться в нормальном рабочем состоянии, это упоминается в разделе требования .

...