На самом деле Kubernetes поддерживает масштабирование до нуля только с помощью вызова API, так как Autoscaler с горизонтальным модулем поддерживает масштабирование только до 1 реплики.
В любом случае есть несколько операторов, которые позволяют вам обойти это ограничение путем перехвата запросов, поступающих на ваши модули или проверки некоторых метрик.
Вы можете взглянуть на Knative или Keda . Они позволяют вашему приложению быть без сервера и делают это по-разному.
Knative , с помощью Istio перехватывает запросы и, если есть активный модуль, обслуживающий их, он перенаправляет входящий запрос в противном случае он вызывает масштабирование.
В отличие от этого, Keda наилучшим образом соответствует архитектуре, управляемой событиями, поскольку он способен проверять предопределенные метрики, такие как задержка, длина очереди или пользовательские метрики (собранные, например, от Прометея) и запускающие масштабирование.
Оба поддерживают масштабирование до нуля в случае, если предопределенные условия выполняются в одинаково предопределенном окне.
Надеюсь, что это помогло.