GKE Kubernetes Autoscaler - максимальный кластерный процессор, достигнут предел памяти - PullRequest
2 голосов
/ 10 марта 2020

GKE Autoscaler не масштабирует узлы после 15 узлов (прежнее ограничение)

Я изменил значения Min и Max в кластере на 17-25

enter image description here Однако счетчик узлов застрял на 14-15 и не увеличивается, сейчас мой кластер заполнен, больше не может быть стручков, поэтому каждое новое развертывание должно запускать масштабирование узла и планировать его на новый узел, которого нет.

Когда я создаю развертывание, он застревает в состоянии Pending с сообщением:

pod didn't trigger scale-up (it wouldn't fit if a new node is added): 1 max cluster cpu, memory limit reached

Макс. процессор кластера, достигнутый предел памяти звучит как максимальное число узлов как-то еще 14-15, как это возможно? Почему он не запускает масштабирование узла?

ClusterAutoscalerStatus:

apiVersion: v1
data:
  status: |+
    Cluster-autoscaler status at 2020-03-10 10:35:39.899329642 +0000 UTC:
    Cluster-wide:
      Health:      Healthy (ready=14 unready=0 notStarted=0 longNotStarted=0 registered=14 longUnregistered=0)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:49:11.965623459 +0000 UTC m=+4133.007827509
      ScaleUp:     NoActivity (ready=14 registered=14)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 08:40:47.775200087 +0000 UTC m=+28.817404126
      ScaleDown:   NoCandidates (candidates=0)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:49:49.580623718 +0000 UTC m=+4170.622827779

    NodeGroups:
      Name:        https://content.googleapis.com/compute/v1/projects/project/zones/europe-west4-b/instanceGroups/adjust-scope-bff43e09-grp
      Health:      Healthy (ready=14 unready=0 notStarted=0 longNotStarted=0 registered=14 longUnregistered=0 cloudProviderTarget=14 (minSize=17, maxSize=25))
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:46:19.45614781 +0000 UTC m=+3960.498351857
      ScaleUp:     NoActivity (ready=14 cloudProviderTarget=14)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:46:19.45614781 +0000 UTC m=+3960.498351857
      ScaleDown:   NoCandidates (candidates=0)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:49:49.580623718 +0000 UTC m=+4170.622827779

Развертывание очень мало! (200м CPU, 256Mi mem), поэтому он наверняка подойдет, если будет добавлен новый узел.

Похоже на ошибку в nodepool / autoscaler, так как 15 был моим прежним пределом числа узлов, так или иначе, похоже, он все еще работает 15 is top.

EDIT: Новый пул узлов с большими машинами, с автоматическим масштабированием в GKE, все еще остается той же проблемой через некоторое время, даже если у узлов есть свободные ресурсы. Верх из узлов:

NAME                                                  CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%   
gke-infrastructure-n-autoscaled-node--0816b9c6-fm5v   805m         41%    4966Mi          88%       
gke-infrastructure-n-autoscaled-node--0816b9c6-h98f   407m         21%    2746Mi          48%       
gke-infrastructure-n-autoscaled-node--0816b9c6-hr0l   721m         37%    3832Mi          67%       
gke-infrastructure-n-autoscaled-node--0816b9c6-prfw   1020m        52%    5102Mi          90%       
gke-infrastructure-n-autoscaled-node--0816b9c6-s94x   946m         49%    3637Mi          64%       
gke-infrastructure-n-autoscaled-node--0816b9c6-sz5l   2000m        103%   5738Mi          101%      
gke-infrastructure-n-autoscaled-node--0816b9c6-z6dv   664m         34%    4271Mi          75%       
gke-infrastructure-n-autoscaled-node--0816b9c6-zvbr   970m         50%    3061Mi          54%

И все же еще сообщение 1 max cluster cpu, memory limit reached. Это все еще происходит при обновлении развертывания, новая версия иногда застревает в Pending, потому что это не вызовет увеличения масштаба.

EDIT2: При описании кластера с помощью команды cloud я нашел это:

autoscaling:
  autoprovisioningNodePoolDefaults:
    oauthScopes:
    - https://www.googleapis.com/auth/logging.write
    - https://www.googleapis.com/auth/monitoring
    serviceAccount: default
  enableNodeAutoprovisioning: true
  resourceLimits:
  - maximum: '5'
    minimum: '1'
    resourceType: cpu
  - maximum: '5'
    minimum: '1'
    resourceType: memory

Как это работает с включенным автоматическим масштабированием? Это не вызовет масштабирование, если таковые достигнуты? (Сумма уже выше)

1 Ответ

0 голосов
/ 10 марта 2020

Можете ли вы проверить, не достигли ли вы квоты проекта? Мол, попробуйте вручную создать ВМ. Если вы не связаны с квотой, можете ли вы указать версию GKE, которую вы используете?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...