Лес изоляции для обнаружения аномалий - PullRequest
0 голосов
/ 13 февраля 2020

В этом примере Лес изоляции для обнаружения аномалий

    import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest

rng = np.random.RandomState(42)

# Generate train data
X = 0.3 * rng.randn(100, 2)
X_train = np.r_[X + 2, X - 2]
# Generate some regular novel observations
X = 0.3 * rng.randn(20, 2)
X_test = np.r_[X + 2, X - 2]
# Generate some abnormal novel observations
X_outliers = rng.uniform(low=-4, high=4, size=(20, 2))

# fit the model
clf = IsolationForest(max_samples=100, random_state=rng)
clf.fit(X_train)
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)

Я считаю, что выбросы в этом коде были введены случайным образом. Но, если я делаю Обнаружение аномалий с данными из реальной жизни, как мне продвинуться вперед?

Как определить аномалии, если у меня уже есть набор данных, я пробую свои силы на Комбинированный Цикл Электростанция набор данных. ИЛИ, если у вас есть другие хорошие наборы данных по практике обнаружения аномалий, отбросьте некоторые ссылки!

Кроме того, если у кого-то есть идеи по моему другому вопросу, Какие модели вы предложите использовать в промышленном обнаружении аномалий и прогнозном анализе в прямом потоке данных?

1 Ответ

0 голосов
/ 20 февраля 2020

Если вы запрашиваете загрязнение в наборе данных. Затем вам нужно проверить параметр загрязнения.

clf = IsolationForest (max_samples = 100, random_state = rng, загрязнение = 'auto')

enter image description here

Он основан на Предположение, что данные имеют определенный уровень загрязнения.

...