GKE Autoscaler не масштабирует узлы после 15 узлов (прежнее ограничение)
Я изменил значения Min
и Max
в кластере на 17-25
Однако счетчик узлов застрял на 14-15 и не увеличивается, сейчас мой кластер заполнен, больше не может быть стручков, поэтому каждое новое развертывание должно запускать масштабирование узла и планировать его на новый узел, которого нет.
Когда я создаю развертывание, он застревает в состоянии Pending
с сообщением:
pod didn't trigger scale-up (it wouldn't fit if a new node is added): 1 max cluster cpu, memory limit reached
Макс. процессор кластера, достигнутый предел памяти звучит как максимальное число узлов как-то еще 14-15, как это возможно? Почему он не запускает масштабирование узла?
ClusterAutoscalerStatus:
apiVersion: v1
data:
status: |+
Cluster-autoscaler status at 2020-03-10 10:35:39.899329642 +0000 UTC:
Cluster-wide:
Health: Healthy (ready=14 unready=0 notStarted=0 longNotStarted=0 registered=14 longUnregistered=0)
LastProbeTime: 2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
LastTransitionTime: 2020-03-10 09:49:11.965623459 +0000 UTC m=+4133.007827509
ScaleUp: NoActivity (ready=14 registered=14)
LastProbeTime: 2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
LastTransitionTime: 2020-03-10 08:40:47.775200087 +0000 UTC m=+28.817404126
ScaleDown: NoCandidates (candidates=0)
LastProbeTime: 2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
LastTransitionTime: 2020-03-10 09:49:49.580623718 +0000 UTC m=+4170.622827779
NodeGroups:
Name: https://content.googleapis.com/compute/v1/projects/project/zones/europe-west4-b/instanceGroups/adjust-scope-bff43e09-grp
Health: Healthy (ready=14 unready=0 notStarted=0 longNotStarted=0 registered=14 longUnregistered=0 cloudProviderTarget=14 (minSize=17, maxSize=25))
LastProbeTime: 2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
LastTransitionTime: 2020-03-10 09:46:19.45614781 +0000 UTC m=+3960.498351857
ScaleUp: NoActivity (ready=14 cloudProviderTarget=14)
LastProbeTime: 2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
LastTransitionTime: 2020-03-10 09:46:19.45614781 +0000 UTC m=+3960.498351857
ScaleDown: NoCandidates (candidates=0)
LastProbeTime: 2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
LastTransitionTime: 2020-03-10 09:49:49.580623718 +0000 UTC m=+4170.622827779
Развертывание очень мало! (200м CPU, 256Mi mem), поэтому он наверняка подойдет, если будет добавлен новый узел.
Похоже на ошибку в nodepool / autoscaler, так как 15 был моим прежним пределом числа узлов, так или иначе, похоже, он все еще работает 15 is top.
EDIT: Новый пул узлов с большими машинами, с автоматическим масштабированием в GKE, все еще остается той же проблемой через некоторое время, даже если у узлов есть свободные ресурсы. Верх из узлов:
NAME CPU(cores) CPU% MEMORY(bytes) MEMORY%
gke-infrastructure-n-autoscaled-node--0816b9c6-fm5v 805m 41% 4966Mi 88%
gke-infrastructure-n-autoscaled-node--0816b9c6-h98f 407m 21% 2746Mi 48%
gke-infrastructure-n-autoscaled-node--0816b9c6-hr0l 721m 37% 3832Mi 67%
gke-infrastructure-n-autoscaled-node--0816b9c6-prfw 1020m 52% 5102Mi 90%
gke-infrastructure-n-autoscaled-node--0816b9c6-s94x 946m 49% 3637Mi 64%
gke-infrastructure-n-autoscaled-node--0816b9c6-sz5l 2000m 103% 5738Mi 101%
gke-infrastructure-n-autoscaled-node--0816b9c6-z6dv 664m 34% 4271Mi 75%
gke-infrastructure-n-autoscaled-node--0816b9c6-zvbr 970m 50% 3061Mi 54%
И все же еще сообщение 1 max cluster cpu, memory limit reached
. Это все еще происходит при обновлении развертывания, новая версия иногда застревает в Pending
, потому что это не вызовет увеличения масштаба.
EDIT2: При описании кластера с помощью команды cloud я нашел это:
autoscaling:
autoprovisioningNodePoolDefaults:
oauthScopes:
- https://www.googleapis.com/auth/logging.write
- https://www.googleapis.com/auth/monitoring
serviceAccount: default
enableNodeAutoprovisioning: true
resourceLimits:
- maximum: '5'
minimum: '1'
resourceType: cpu
- maximum: '5'
minimum: '1'
resourceType: memory
Как это работает с включенным автоматическим масштабированием? Это не вызовет масштабирование, если таковые достигнуты? (Сумма уже выше)