У меня есть вход с поддержкой Google Cloud Load Balancer в моем кластере Google Kubernetes Engine.У меня есть автоскалер, настроенный для масштабирования количества реплик моего развертывания в зависимости от загрузки процессора.Допустим, я установил порог ЦП на 50%.
При наличии пакета запросов загрузка ЦП достигает 100%.Автоматическое масштабирование занимает несколько минут, чтобы понять высокую нагрузку, создать больше модулей, создать новые узлы, если это необходимо, и пройти проверки работоспособности.В течение этого периода масштабирования некоторые или большинство запросов завершаются с ошибкой 502 из-за тайм-аутов.Я бы предпочел немедленно вернуть код ошибки 503, если сервер находится под большой нагрузкой, а не возвращать код ошибки 502. После 30-секундного тайм-аута.
Возможно ли, чтобы балансировщик нагрузки направлял трафик к модулям с наименьшимИспользование процессора?Можно ли вернуть код ошибки 503, если ни у одного из модулей загрузка ЦП ниже определенного порога, скажем, 80%?
Какова стандартная практика для обработки большого количества трафика и как мне поступитьо решении этого вопроса в Кубернетес?