Мы используем серверы узлов js, работающие в AWS ECS, за ALB. Затем у нас есть шлюз AWS API с лямбда-прокси, вызывающим ALB. Это работало в течение нескольких месяцев, когда неожиданно несколько дней назад мы начали видеть ошибки 502 от некоторых вызовов API.
Я проверил лямбда-логи прокси-сервера, чтобы убедиться, что 502 возвращается из ALB. Тем не менее, когда я проверяю журналы приложений моего узла, нет никаких сбоев запросов, на самом деле ни один запрос, кажется, не достиг приложения к этим временным меткам. Затем я включил журналы доступа на ALB, который показывает только ответы 200/201 - никаких 5xx вообще. Теперь я немного смущен тем, где искать дальше. Что может привести к тому, что мой ALB вернет 502 без этого в журналах доступа ALB? И что может заставить запросы не доходить до моего приложения узла в ECS? Кто-нибудь имеет какие-либо идеи о том, что журналы, чтобы проверить дальше или что нужно сделать, чтобы точно определить ошибки? Может ли какой-то слой в ECS вызвать эти симптомы? Я не вижу никаких ошибок в моих док-контейнерах или что-то еще.
Кажется, что это происходит в пакетном режиме, до 50 неудачных запросов в течение определенного периода времени, а затем все в порядке в течение нескольких часов.