AWS ALB катастрофический сбой - PullRequest
0 голосов
/ 11 марта 2019

Во-первых, предыстория:

Вчера наш бизнес на базе AWS в US West 2, состоящий из двух автоматически масштабируемых групп (и различных других компонентов, таких как RDS и далее) за ALB, отключился на шесть часов.,Служба была восстановлена ​​только путем создания совершенно нового ALB (перенос по правилам и целевым группам).

В 4:15 по местному времени (GMT + 10) ALB прекратил получать входящий трафик и не отвечал навеб-трафик.Мы использовали его для завершения порта 80 и порта 443 (с сертификатом SSL).В то же время все экземпляры целевой группы были также помечены как «нездоровые» (хотя они, безусловно, работоспособны), и им не было перенаправлено никакого трафика.DNS разрешен правильно в ALB.Он просто перестал отвечать.Эквивалентные признаки того, что сетевой маршрутизатор / коммутатор был либо выключен, либо перестал работать через брандмауэр.

Другие наши серверы EC2, не находившиеся за ALB, продолжали работать.

Первоначальные мысли были:

а) преднамеренная изоляция с помощью АМС?Счет не оплачен, какое-то преступление принято в отчете о нарушенииМаловероятно, и AWS не уведомил нас о каких-либо нарушениях или причинах для принятия мер.

b) Ошибка с нашей стороны в конфигурации сети?За несколько дней не было внесено никаких изменений в NACL или группы безопасности.Дальше мы крепко спали, когда это случилось, никто не возился с настройками.Когда мы строили заменяющий ALB, мы без проблем использовали те же NACL и группы безопасности.

c) Не удалось выполнить обслуживание?Это кажется наиболее вероятным.Но AWS, похоже, не обнаружил сбой.И мы не подняли его, потому что считали «маловероятным» полный, необъяснимый и необнаруженный отказ ALB.Нам нужно будет провести некоторые собственные внешние проверки здоровья.У нас есть некоторые, основанные на Nagios, поэтому мы можем включить тревогуНо это не помогает, если ALB нестабилен - нецелесообразно продолжать создавать новый, если это повторяется.

Самая большая проблема заключается в том, что это произошло внезапно и неожиданно и что AWS не обнаружилэтот.Обычно нас никогда не беспокоит сетевая инфраструктура AWS, поскольку «она просто работает».До сих пор.Для ALB нет доступных для обслуживания пользователей опций (например, перезагрузка / обновление).

А теперь мой актуальный вопрос:

Кто-нибудь еще видел что-то подобное?Если это так, что можно сделать, чтобы вернуть сервис быстрее или вообще предотвратить его?Если это случилось с тобой, что ты сделал?

1 Ответ

0 голосов
/ 18 марта 2019

Я собираюсь закрыть это.

Это случилось снова в следующее воскресенье, и снова этим вечером.Точно такие же симптомы.Восстановление было первоначально достигнуто путем создания нового ALB и переноса правил и целевых групп.Любопытно, что предыдущий ALB снова начал работать, но когда мы попытались восстановить его, он снова не удался.

Создание новых ELB больше не является обходным путем, и мы переключились на поддержку бизнеса AWS, чтобы получить прямуюсправка от AWS.

Наши лучшие гипотезы таковы: AWS что-то изменила в процессе обслуживания, и ALB (который на самом деле представляет собой просто набор экземпляров EC2 с некоторым «проприетарным кодом» AWS) не работает, но это действительнопросто дикие домыслы.

...