Отказ от ответственности: Пожалуйста, скажите мне, если вопрос слишком широкий, и я сделаю все возможное, чтобы сузить его.
У нас есть приложение Heroku, которое работает с 2 веб 1X динам,Эта инфраструктура работала в течение последних 9 месяцев.
Однако за последние несколько недель у нас было несколько эпизодов, в которых время отклика приложения резко возрастало в течение часа, а затем возвращалось в нормальное состояние без нас.что-нибудь об этом.
На рисунках ниже вы можете найти выдержку из метрик Heroku во время одного из этих "эпизодов", который произошел вчера днем.
Как видите, время отклика увеличивается, и в итоге практически любой запрос к серверу получает тайм-аут.Во время мероприятия было едва возможно даже загрузить домашнюю страницу нашего сайта, размещенную в этом приложении.В большинстве случаев мы получаем страницу Heroku «Ошибка приложения».
Я вижу следующее:
- Количество запросов к серверу (провалился или нет) не был безумно высоким (менее 1000 каждые 10 минут).По этой причине я думаю, что атака DDOS не подходит.
- Все, что показывает Heroku Logs, состоит в том, что неудачный запрос получает ошибку 503 (Service Unavailable), что заставляет меня думать о перегрузке.
- Динамограммы не выглядят перегруженными.Использование памяти низкое, и загрузка динамометрической системы является разумной, ничего необычного.
- Heroku не сообщила о проблеме во время нашего события сбоя, как указывает https://status.heroku.com/ (последний инцидент был 1 июля).
Перезапуск dyno с помощью нескольких методов (из интерфейса, командной строки или запуска автоматического развертывания через наш репозиторий Gitlab) не дал никакого эффекта.
Я совершенно не уверен, какинтерпретировать эти метрики, и что было бы решением для обеспечения такого рода эпизодов больше не повторяется.Итак, мой вопрос: где мне искать? Есть ли какая-то документация о том, как расследовать сбои в приложениях Heroku?