Ранее в этом месяце мы включили Stackdriver Monitoring в 3 наших проектах на GCP.
Недавно мы обнаружили, что метрики API Stackdriver показывают около 85% ошибок:
На графиках эти коды ошибок 429:
Я проверил квоты, все выглядит нормально:
Следующий график показателей показывает нам, какой метод вызывает ошибки:
Используя другой график «Ошибки по учетным данным», я обнаружил, что запросы API сделано нашим сервисным аккаунтом GKE. У нас есть пользовательская учетная запись службы для экземпляров GKE, и, насколько нам известно, она имеет все необходимые разрешения для мониторинга:
roles/logging.logWriter
roles/monitoring.metricWriter
roles/stackdriver.resourceMetadata.writer
(как отмечено в этой проблеме )
Кроме того, stackdriver-metadata-agent
стручков в ошибках журналов кластера GKE каждую минуту:
stackdriver-metadata-agent-cluster-level-d6556b55-2bkbc metadata-agent I0203 15:03:16.911940 1 binarylog.go:265] rpc: flushed binary log to ""
stackdriver-metadata-agent-cluster-level-d6556b55-2bkbc metadata-agent W0203 15:03:56.495034 1 kubernetes.go:118] Failed to publish resource metadata: rpc error: code = ResourceExhausted desc = Resource has been exhausted (e.g. check quota).
stackdriver-metadata-agent-cluster-level-d6556b55-2bkbc metadata-agent I0203 15:04:16.912272 1 binarylog.go:265] rpc: flushed binary log to ""
stackdriver-metadata-agent-cluster-level-d6556b55-2bkbc metadata-agent W0203 15:04:56.657831 1 kubernetes.go:118] Failed to publish resource metadata: rpc error: code = ResourceExhausted desc = Resource has been exhausted (e.g. check quota).
В сторону Исходя из этого, я еще не нашел никаких журналов, связанных с этой проблемой, и не могу понять, кто делает 2 запроса в секунду, чтобы API Stackdriver получал 429 ошибок.
Я должен добавить, что все выше верно для всех 3 проекты.
Может кто-нибудь подсказать, как мы можем решить проблему?
Это все еще превышение квоты? Если да, то почему показатели запросов для квот в порядке Quota exceeded errors count
не содержит данных?
У нас отсутствуют какие-либо разрешения для нашей учетной записи службы GKE?
Что еще может быть связано?
Заранее спасибо.