Мониторинг распределенной сети - как определить, упал ли отслеживаемый ресурс или виноват сам монитор - PullRequest
3 голосов
/ 24 августа 2010

Я создаю систему для мониторинга нескольких крупных веб-сайтов (ресурсов), используя распределенные веб-службы, управляемые центральным контроллером.

Я перехожу к определенной части проекта - фактической отчетности о ресурсах, которые, как считается, упали.

Моя проблема заключается в том, что всегда существует вероятность того, что сам монитор сам виноват или потерял сетевое соединение с ресурсом, а ресурс действительно исправен. Я не хочу сообщать о проблемах, если их на самом деле нет.

В настоящее время я планирую запросить монитор, чтобы все другие мониторы проверили ресурс, если он столкнулся с проблемой, а затем приняли решение о том, действительно ли ресурс был переполнен, на основе коллективных результатов.

Я уверен, что есть кто-то с большим опытом такого типа программирования, чем я.

Есть ли общее решение проблемы такого типа? Является ли мое решение достойным взглядом на это?

Ответы [ 2 ]

2 голосов
/ 24 августа 2010

Ваше решение - одно из немногих прагматичных.

Нет ничего нового под солнцем. Протокол IETF Routing Information Protocol не был первой попыткой решения этой проблемы, но он хорошо документирован и работает.

Обратите внимание, что не существует оптимального (или идеального) решения для класса проблем, с которыми вы сталкиваетесь, лучшее, что вы можете сделать с помощью внутриполосного мониторинга, - это правильно угадать, в чем причина ошибки. В системах, которые нуждаются в очень высокой степени точности информации о неисправностях (например, коммутируемая телефонная сеть общего пользования ), создается параллельная внеполосная сеть мониторинга, которая сама должна обязательно контролироваться людьми.

0 голосов
/ 07 августа 2012

Quis Custodiet Ipsos Custodes? (Кто будет наблюдать за наблюдателями?) - Ювенал, "Сатиры"

...