Один класс SVM и лес изоляции для обнаружения новизны - PullRequest
0 голосов
/ 15 октября 2019

Мой вопрос касается алгоритмов обнаружения новинок - Isolation Forest и One Class SVM. У меня есть обучающий набор данных (с 4-5 функциями), в котором все точки выборки являются внутренними, и мне нужно классифицировать любые новые данные как внутренние или внешние, и соответственно загружать их в другой информационный кадр.

При попытке использовать изоляциюForest или One Class SVM, я должен ввести процент загрязнения (nu) во время фазы обучения. Однако, так как в обучающем наборе данных нет никакого загрязнения, нужно ли мне добавлять выбросы в обучающий фрейм данных и указывать эту долю выбросов как nu.

Также при использовании леса изоляции я заметил, что процент выбросов изменяетсякаждый раз, когда я предсказываю, хотя я не меняю модель. Есть ли способ позаботиться об этой проблеме, кроме перехода в алгоритм расширенного леса изоляции.

Заранее спасибо.

1 Ответ

0 голосов
/ 17 октября 2019

Относительно загрязнения для изолированного леса,

Если вы тренируетесь для обычных случаев (все значения) , вы должны поставить нольдля загрязнения. Если вы не укажете это, загрязнение будет равно 0,1 (для версии 0.2).

Ниже приведен простой код, демонстрирующий это:

1 - Импорт библиотек

import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest
rng = np.random.RandomState(42)

2- Создать 2D-набор данных

X = 0.3 * rng.randn(1000, 2)

3- Обучить модель iForest и предсказать выбросы

clf = IsolationForest(random_state=rng, contamination=0)
clf.fit(X)
y_pred_train = clf.predict(X)  

4- Печать # аномалий

print(sum(y_pred_train==-1))

Это даст вам 0 аномалий . Теперь, если вы измените загрязнение на 0,15, программа указывает 150 аномалий из того же набора данных, который у вас уже был (тот же из-за RandomState (42) ).

[Список литературы]:

1 Лю, Фэй Тони, Тин, Кай Мин и Чжоу, Чжи Хуа. "Изоляция леса". Data Mining, 2008. ICDM'08. Восьмая Международная конференция IEEE

2 Лю, Фэй Тони, Тинг, Кай Мин и Чжоу, Чжи Хуа. «Обнаружение аномалий на основе изоляции». Транзакции ACM по обнаружению знаний из данных (TKDD), (2012)

...