В этом примере Лес изоляции для обнаружения аномалий
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest
rng = np.random.RandomState(42)
# Generate train data
X = 0.3 * rng.randn(100, 2)
X_train = np.r_[X + 2, X - 2]
# Generate some regular novel observations
X = 0.3 * rng.randn(20, 2)
X_test = np.r_[X + 2, X - 2]
# Generate some abnormal novel observations
X_outliers = rng.uniform(low=-4, high=4, size=(20, 2))
# fit the model
clf = IsolationForest(max_samples=100, random_state=rng)
clf.fit(X_train)
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)
Я считаю, что выбросы в этом коде были введены случайным образом. Но, если я делаю Обнаружение аномалий с данными из реальной жизни, как мне продвинуться вперед?
Как определить аномалии, если у меня уже есть набор данных, я пробую свои силы на Комбинированный Цикл Электростанция набор данных. ИЛИ, если у вас есть другие хорошие наборы данных по практике обнаружения аномалий, отбросьте некоторые ссылки!
Кроме того, если у кого-то есть идеи по моему другому вопросу, Какие модели вы предложите использовать в промышленном обнаружении аномалий и прогнозном анализе в прямом потоке данных?