У меня дважды возникла проблема, когда веб-сервер с низким трафиком значительно увеличил VolumeReadOps. Во второй раз он использовал Burst Balance и стал недоступен. Мне пришлось остановиться и запустить экземпляр, чтобы получить его обратно.
Но теперь, когда он снова доступен, я не могу понять, что вызвало проблему. Журналы HTTP нормальные. У меня есть мониторинг MemoryUtilization и SwapUtilization в CloudWatch, памяти было много, но много раз было так много раньше. И ничего в SwapUtilization.
Мой вопрос: как вы все отлаживаете такую проблему? Оба случая произошли, когда меня не было, поэтому я не мог войти, чтобы посмотреть, что вызвало это. Но быть недоступным ограничивает то, что я могу сделать в любом случае. Какие-нибудь предложения относительно способа зарегистрировать этот тип деятельности, чтобы я мог найти причину, когда это случится снова?