Почему мы автоматически обновились до 14.7-gke.14? Почему последняя 1.14.8-гке.2 вообще не работает… - PullRequest
1 голос
/ 06 ноября 2019

Похоже, что наш мастер был автоматически обновлен сегодня утром без предварительного предупреждения с более ранней версии 1.14.x до 1.14.7-gke.14, но ранее мы отключили автоматическое обновление, поэтому это совершенно странно, особенно если учесть, что 1.14.7-gke.14 нарушает идентификацию рабочей нагрузки. на которые полагаются многие из нас в мире GKE.

Более того, я вижу новую версию в списке 1.14.8-gke.2, которая на момент написания этого вопроса даже не упоминалась в примечаниях к выпуску GKE . Наш кластер был создан еще до того, как каналы выпуска стали единым целым, поэтому AFAIK нас не зачислили ни в один из них.

Интересно, кто-то нажал на спусковой крючок преждевременно (опять же, поскольку это не в первый раз).

Поскольку не было возможности вернуться к стабильной версии, в которой идентификация рабочей нагрузки работала нормально, мы продолжили и обновили до 1.14.8-gke.2 в надежде, что это решит проблему. Это была явная игра, которая не окупилась вообще, потому что привела к колоссальному кластерному феку, когда некоторые сервисы вообще не работали из-за всевозможных проблем с контейнерами и сетями. В частности:

  1. Прометей-к-SD контейнера kube-dns выдаёт следующую ошибку: http://169.254.169.254/computeMetadata/v1/project/project-id: dial tcp 169.254.169.254:80: getsockopt: connection refused

  2. Сбои в тестах готовности и живучестииз-за какой-то внутренней проблемы с сетью для некоторых наших сервисов

Теперь перейдем к основному вопросу. Что бы вы предложили, ребята? Воссоздать кластер и вернуться к v1.13.x, а также зарегистрироваться в стабильном выпуске канала? Какие еще варианты у нас есть? Хотелось бы получить представление о том, что здесь происходит, черт возьми.

РЕДАКТИРОВАТЬ: в настоящее время мы размещаемся в europe-west1-d, это зональный кластер, который включает 1 стандартный пул с 3 автоматически масштабируемыми узлами и1 вытесняемый пул для динамических рабочих нагрузок.

EDIT2: только что заметил в примечаниях к выпуску от 30 октября, что 1.14.6-gke.2 будет свернут, я должен был пропустить это раньше. В любом случае все еще остается вопрос, почему существует недокументированная версия и почему она не работает +, если кто-нибудь знает, когда идентичность рабочей нагрузки снова будет работать в обычном канале? Это вынуждает нас перейти на 1.13.x

EDIT3: оказывается, kube-dns использует версию образа 1.15.4 на кластере 1.14.x, это почти похоже на сломанный выпуск, когда я понижаю егоработает ненадолго, пока контроллер кластера не решил отменить изменение, поэтому мы собираемся воссоздать кластер

EDIT4: через несколько часов выясняется, что изображение cos_containerd было основной причиной, переключаяИзображение помогло решить все проблемы, похоже, мы продолжим мониторинг

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...