лучший способ статистически обнаружить аномалии в данных - PullRequest
6 голосов
/ 20 августа 2009

наше веб-приложение собирает огромное количество данных о действиях пользователей, сетевых операциях, загрузке базы данных и т. Д. И т. Д. И т. Д.

Все данные хранятся на складах, и у нас есть довольно много интересных взглядов на эти данные.

Если случается что-то странное, это может быть где-то в данных.

Однако, чтобы вручную определить, происходит ли что-то необычное, нужно постоянно просматривать эти данные и искать странности.

Мой вопрос: каков наилучший способ обнаружить изменения в динамических данных, которые можно рассматривать как «необычные».

Можно ли использовать байесовские фильтры (о которых я упоминал, когда читал об обнаружении спама)?

Любые указатели были бы великолепны!

EDIT: Для уточнения данных, например, показана суточная кривая загрузки базы данных. Эта кривая обычно выглядит как кривая вчерашнего Со временем эта кривая может медленно меняться.

Было бы хорошо, если бы кривая изо дня в день изменялась, скажем, в некоторых периметрах, предупреждение могло сработать.

R

Ответы [ 4 ]

5 голосов
/ 26 августа 2009

Взгляните на Контрольные диаграммы , они позволяют визуально отслеживать изменения в ваших данных и указывать, когда данные «вышли из-под контроля» или «аномальны». Они широко используются в производстве для обеспечения контроля качества.

4 голосов
/ 04 сентября 2009

На этот вопрос невозможно ответить, не зная гораздо больше о конкретных данных, которые у вас есть. Обзор возможных подходов см. В Обнаружение аномалий: обзор , проведенный Чандолой, Банерджи и Кумаром.

1 голос
/ 20 августа 2009

Байесовская классификация может поможет вам найти некоторые аномалии в ваших данных в зависимости от типа данных и от того, насколько хорошо вы обучили свой байесовский фильтр.

Существует даже один доступный в качестве веб-службы @ uClassify.com .

1 голос
/ 20 августа 2009

Это очень сильно зависит от данных. Пройдите урок статистики и сначала изучите основы. Обычно это не простая или простая проблема.

...