A flask -api (с использованием gunicorn) используется в качестве API вывода модели глубокого обучения. Этот конкретный c процесс вывода очень интенсивно использует процессор (пока не использует gpu).
Какова лучшая практика развертывания его в кластер kubernetes, основанный на следующих аспектах:
Должен ли я создавать несколько пакетов для обработки запросов с использованием одного работника-оружейника или меньше, чтобы разрешить работать с несколькими работниками? (объем памяти узла)
, поскольку google предоставляет доступ к вашему развертыванию как службе с помощью внешнего балансировщика нагрузки, нужен ли мне веб-сервер nginx в моем стеке flask -gunicorn?
создание нескольких идентичных модулей на одном и том же узле 1016 *, является ли это более интенсивным, чем обработка всех этих запросов с использованием многопоточности на одном модуле?