Во-первых, предыстория:
Вчера наш бизнес на базе AWS в US West 2, состоящий из двух автоматически масштабируемых групп (и различных других компонентов, таких как RDS и далее) за ALB, отключился на шесть часов.,Служба была восстановлена только путем создания совершенно нового ALB (перенос по правилам и целевым группам).
В 4:15 по местному времени (GMT + 10) ALB прекратил получать входящий трафик и не отвечал навеб-трафик.Мы использовали его для завершения порта 80 и порта 443 (с сертификатом SSL).В то же время все экземпляры целевой группы были также помечены как «нездоровые» (хотя они, безусловно, работоспособны), и им не было перенаправлено никакого трафика.DNS разрешен правильно в ALB.Он просто перестал отвечать.Эквивалентные признаки того, что сетевой маршрутизатор / коммутатор был либо выключен, либо перестал работать через брандмауэр.
Другие наши серверы EC2, не находившиеся за ALB, продолжали работать.
Первоначальные мысли были:
а) преднамеренная изоляция с помощью АМС?Счет не оплачен, какое-то преступление принято в отчете о нарушенииМаловероятно, и AWS не уведомил нас о каких-либо нарушениях или причинах для принятия мер.
b) Ошибка с нашей стороны в конфигурации сети?За несколько дней не было внесено никаких изменений в NACL или группы безопасности.Дальше мы крепко спали, когда это случилось, никто не возился с настройками.Когда мы строили заменяющий ALB, мы без проблем использовали те же NACL и группы безопасности.
c) Не удалось выполнить обслуживание?Это кажется наиболее вероятным.Но AWS, похоже, не обнаружил сбой.И мы не подняли его, потому что считали «маловероятным» полный, необъяснимый и необнаруженный отказ ALB.Нам нужно будет провести некоторые собственные внешние проверки здоровья.У нас есть некоторые, основанные на Nagios, поэтому мы можем включить тревогуНо это не помогает, если ALB нестабилен - нецелесообразно продолжать создавать новый, если это повторяется.
Самая большая проблема заключается в том, что это произошло внезапно и неожиданно и что AWS не обнаружилэтот.Обычно нас никогда не беспокоит сетевая инфраструктура AWS, поскольку «она просто работает».До сих пор.Для ALB нет доступных для обслуживания пользователей опций (например, перезагрузка / обновление).
А теперь мой актуальный вопрос:
Кто-нибудь еще видел что-то подобное?Если это так, что можно сделать, чтобы вернуть сервис быстрее или вообще предотвратить его?Если это случилось с тобой, что ты сделал?