Каков наилучший подход для обнаружения выбросов? - PullRequest
1 голос
/ 15 апреля 2019

Мне приходит поток чисел, и я хочу пометить их как 1, если выброс, и 0, если не выброс. У меня есть два подхода к этому:

1) Я вычисляю скользящее среднее число поступающих чисел. Затем я вычисляю скользящее стандартное отклонение вычисленного среднего числа. С этими значениями я создаю доверительную границу с (μ ± 3σ)

2) Я рассчитываю скользящее среднее и стандартное отклонение поступающих чисел. С этими значениями я создаю достоверность, связанную с (μ ± 3σ)

Какой подход лучше и почему?

1 Ответ

1 голос
/ 15 апреля 2019

Это полностью зависит от вашего приложения.

При этом второй подход выглядит как стандартное (некоторые назовут его наивным) решение. Первый подход кажется очень странным и не совсем подходящим:

Представьте только два чередующихся числа. Скажем, 0 и 10. Через некоторое время у вас будет очень стабильное среднее значение 5 + - ε (при ε, сходящемся к 0). Таким образом, стандартное отклонение этих средств будет становиться все меньше и меньше по мере вашего продвижения. В конце концов, 3σ будет меньше 5, и все входящие номера с этого момента будут отклоняться.

...