Я работаю над проектом, который развернут в Kubernetes. Система состоит из нескольких микросервисов, один из которых выполняет интенсивную работу ЦП в течение 4-5 секунд при запросе через HTTP.
Мы находимся в ситуации, когда пользователи могут вызывать эту конечную точку много раз одновременно в течение короткого периода времени (возможно, в течение миллисекунд). Меня беспокоит то, что автоматическое масштабирование не может загружать новые модули достаточно быстро, чтобы удовлетворить потребности, и что несколько запросов будут отправляться на один модуль, что приведет к снижению производительности для каждого из этих запросов HTTP.
Приложение, запущенное в контейнере, фактически загружает новый процесс при каждом запросе. Это означает, что приложение может использовать более одного ядра при обработке более одного запроса.
Так что вопрос
Есть ли способ сделать молниеносно быстрым автоматическое масштабирование, т.е. отвечая в течение миллисекунд? Как эта проблема решается в других проектах?
Спасибо