У меня есть модель Inception V3 с некоторыми изменениями ввода и вывода, развернутыми в Google Cloud ML Engine для онлайн-прогнозов.В течение недели или около того у меня было относительно немного редких запросов (около 130) со средней задержкой около 100 мс и 95% процентили 2000 мс.Я уже сгенерировал около 2 узлов * часов.Минимальное количество узлов установлено в 0. Это первый раз, когда я хочу использовать Cloud ML Engine в работе.
Вопросы:
Я знаю, что узлы работают через несколько минут после запроса.Но как я могу оценить количество запросов, скажем, за 1 минуту, которое приведет к масштабированию системы?Похоже, что нет никакой информации об использовании процессором узлов.
В моем случае я предполагаю, что количество запросов будет неуклонно расти.Стоит ли ожидать, что число узлов * достигнет приблизительно 30 * 24 (количество дней в часах в месяце), затем насыщать это значение в течение некоторого времени, а затем идти дальше, когда загрузка ЦП узлов предсказания достигает, скажем, 70%?