У меня есть скрипт на python, который создает список списков времени работы сервера и данных о производительности, где каждый подсписок (или «строка») содержит статистику конкретного кластера.Например, в хорошо отформатированном виде это выглядит примерно так:
------- ------------- ------------ ---------- -------------------
Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization
------- ------------- ------------ ---------- -------------------
ams-a 98.099 1012 678 91
bos-a 98.099 1111 12 91
bos-b 55.123 1513 576 22
lax-a 99.110 988 10 89
pdx-a 98.123 1121 11 90
ord-b 75.005 1301 123 100
sjc-a 99.020 1000 10 88
...(so on)...
Таким образом, в форме списка это может выглядеть следующим образом:
[[ams-a,98.099,1012,678,91],[bos-a,98.099,1111,12,91],...]
Мой вопрос: как лучше всего определить выбросы?в каждом столбце?Или выбросы не обязательно лучший способ решить проблему обнаружения «плохости»?В приведенных выше данных я определенно хотел бы знать о bos-b и ord-b, а также об ams-a, так как уровень ошибок очень высок, но остальные могут быть отброшены.В зависимости от столбца, поскольку выше не обязательно хуже и не ниже, я пытаюсь найти наиболее эффективный способ сделать это.Похоже, что numpy часто упоминается для такого рода вещей, но я не уверен, с чего начать (к сожалению, я скорее системный администратор, чем статистик ...).
Заранее спасибо!