Функция активации, чтобы помочь найти аномалии - PullRequest
1 голос
/ 07 марта 2020

Итак, у меня есть один столбец данных, все данные там нормальные и без каких-либо аномалий. Допустим, данные разбросаны так же, как на картинке ниже.

enter image description here

K-means на самом деле не работает с одним столбцом. Мне дали совет составить график данных, а затем использовать функцию активации, предпочтительно сигмовидную (но могут быть и другие, которые также будут работать), чтобы включить в нее большинство данных.

После этого добавьте аномалии, которые будут подальше от функции активации, а затем, в основном, сказать, находится ли значение так далеко от функции активации (играет роль порога), вызвать это значение как аномалию

enter image description here

Я ищу несколько советов по этому поводу, я думаю, что идея этого не плохая.

1 Ответ

1 голос
/ 09 марта 2020

Вам нужен способ для вычисления показателя аномалии, а затем для установки порогового значения для этого показателя для того, что считать аномалией.

Простой метод - моделировать данные как нормально распределенные (гауссовские), рассчитать среднее и стандартное отклонение распределения. Затем для каждого нового образца вычислите показатель аномалии как число стандартных отклонений от среднего значения распределения. Затем вы устанавливаете пороговое значение, например, с 3 стандартными отклонениями (точное значение должно быть определено для предпочтения «Истина против ложного положительного значения»).

При обобщении в многомерный набор данных это называется расстоянием Махаланобиса и часто применяется к обнаружению аномалии. Это то, что использует модель EllipticEnvelope в scikit-learn .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...