Метрики Stackdriver API показывают много 429 ошибок, в то время как квота не превышена - PullRequest
1 голос
/ 03 февраля 2020

Ранее в этом месяце мы включили Stackdriver Monitoring в 3 наших проектах на GCP.

Недавно мы обнаружили, что метрики API Stackdriver показывают около 85% ошибок:

enter image description here

На графиках эти коды ошибок 429:

enter image description here

Я проверил квоты, все выглядит нормально:

enter image description here

Следующий график показателей показывает нам, какой метод вызывает ошибки:

enter image description here

Используя другой график «Ошибки по учетным данным», я обнаружил, что запросы API сделано нашим сервисным аккаунтом GKE. У нас есть пользовательская учетная запись службы для экземпляров GKE, и, насколько нам известно, она имеет все необходимые разрешения для мониторинга:

  • roles/logging.logWriter
  • roles/monitoring.metricWriter
  • roles/stackdriver.resourceMetadata.writer (как отмечено в этой проблеме )

Кроме того, stackdriver-metadata-agent стручков в ошибках журналов кластера GKE каждую минуту:

stackdriver-metadata-agent-cluster-level-d6556b55-2bkbc metadata-agent I0203 15:03:16.911940       1 binarylog.go:265] rpc: flushed binary log to ""
stackdriver-metadata-agent-cluster-level-d6556b55-2bkbc metadata-agent W0203 15:03:56.495034       1 kubernetes.go:118] Failed to publish resource metadata: rpc error: code = ResourceExhausted desc = Resource has been exhausted (e.g. check quota).
stackdriver-metadata-agent-cluster-level-d6556b55-2bkbc metadata-agent I0203 15:04:16.912272       1 binarylog.go:265] rpc: flushed binary log to ""
stackdriver-metadata-agent-cluster-level-d6556b55-2bkbc metadata-agent W0203 15:04:56.657831       1 kubernetes.go:118] Failed to publish resource metadata: rpc error: code = ResourceExhausted desc = Resource has been exhausted (e.g. check quota).

В сторону Исходя из этого, я еще не нашел никаких журналов, связанных с этой проблемой, и не могу понять, кто делает 2 запроса в секунду, чтобы API Stackdriver получал 429 ошибок.

Я должен добавить, что все выше верно для всех 3 проекты.

Может кто-нибудь подсказать, как мы можем решить проблему?

Это все еще превышение квоты? Если да, то почему показатели запросов для квот в порядке Quota exceeded errors count не содержит данных?

У нас отсутствуют какие-либо разрешения для нашей учетной записи службы GKE?

Что еще может быть связано?

Заранее спасибо.

1 Ответ

0 голосов
/ 03 февраля 2020

Это известное поведение, когда контейнеры и контейнеры имеют тенденцию публиковать sh обновления очень часто, и это выходит за пределы скорости. С этим поведением не возникает проблем с производительностью или функциональностью, кроме получения шумных логов.

Также возможно применить исключение журналов , чтобы избежать их публикации в журнале Stackdriver.

...