У меня есть производственный кластер AKS kubernetes, размещенный на юге Великобритании, который стал нестабильным и не отвечает:
Из рисунка видно, что у меня есть несколько модулей в разных состояниях неготовности, т. Е. Завершающие / неизвестные, а те, к которым должен работать отчет, недоступны.
Я могу видеть из таблицы аналитики, что проблема начинается около 9:50 вечера прошлой ночью
Я просматривал журналы в самой службе AKS и журналы Kibana для приложений, работающих в кластере во время сбоя, но я изо всех сил пытаюсь увидеть все, что, по-видимому, вызвало это.
К счастью, у меня есть два кластера, обслуживающих производство под управлением диспетчера трафика, поэтому я перенаправил весь трафик на работоспособный, но меня беспокоит то, что мне нужно понять, что вызвало это, особенно если то же самое произойдет с другим, поскольку будет производственный процесс. время простоя, пока я раскручиваю новый кластер.
У меня вопрос: я упускаю какие-либо очевидные места для поиска информации о причинах проблемы? какие-либо журналы событий, которые могут указывать на проблему?