Как минимум, вы хотите знать, что система исправна. Это субъективно в том, что определяет, что ваша система здорова. Если компьютеры работают, необходимые ресурсы существуют, данные передаются через систему, данные дают правильные результаты и т. Д. И т. Д. И т. Д.
В моем проекте мы выполняем мониторинг большей части этого, а затем и некоторых. Это действительно сводится к тому, что является самым высоким уровнем, который вы можете использовать, чтобы проанализировать, что все работает. В нашем случае нам нужно знать вплоть до вывода данных. Если вам просто нужно узнать, работают ли эти машины, это избавит вас от попыток показать неопытному конечному пользователю, что не так.
Существуют также «готовые» инструменты, которые сделают за вас большую тяжелую работу, если вы слишком усердно изучаете результаты данных. Мне особенно понравился Nagios , когда я осматривался, но нам нужно было больше, чем это можно было легко показать, поэтому я написал собственную систему мониторинга. По сути, мы также следим за «особенностями» системы, скачками памяти / процессора и т. Д. *