Question

Итак, у меня есть один столбец данных, все данные там нормальные и без каких-либо аномалий. Допустим, данные разбросаны так же, как на картинке ниже.

K-means на самом деле не работает с одним столбцом. Мне дали совет составить график данных, а затем использовать функцию активации, предпочтительно сигмовидную (но могут быть и другие, которые также будут работать), чтобы включить в нее большинство данных.

После этого добавьте аномалии, которые будут подальше от функции активации, а затем, в основном, сказать, находится ли значение так далеко от функции активации (играет роль порога), вызвать это значение как аномалию

Я ищу несколько советов по этому поводу, я думаю, что идея этого не плохая.

jonnor · Answer 1 · 09 марта 2020

Вам нужен способ для вычисления показателя аномалии, а затем для установки порогового значения для этого показателя для того, что считать аномалией.

Простой метод - моделировать данные как нормально распределенные (гауссовские), рассчитать среднее и стандартное отклонение распределения. Затем для каждого нового образца вычислите показатель аномалии как число стандартных отклонений от среднего значения распределения. Затем вы устанавливаете пороговое значение, например, с 3 стандартными отклонениями (точное значение должно быть определено для предпочтения «Истина против ложного положительного значения»).

При обобщении в многомерный набор данных это называется расстоянием Махаланобиса и часто применяется к обнаружению аномалии. Это то, что использует модель EllipticEnvelope в scikit-learn .

Функция активации, чтобы помочь найти аномалии

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Функция активации, чтобы помочь найти аномалии

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы