Я использую «Local Outlier Factor» для обнаружения аномалий. Алгоритм имеет параметр под названием « загрязнение ». Этот параметр представляет собой долю выбросов. В моем случае, "0,0058" является лучшим значением для параметра загрязнения.
#parameters
n_neighbors = 750
p = 7
contamination = 0.0058 # the proportion of outliers
lof = LocalOutlierFactor(n_neighbors=n_neighbors, p=p, contamination=contamination)
y_pred_train = lof.fit_predict(data_scaled)
Я нашел это значение после того, как попробовал много разных значений. Однако мне нужно найти наилучшее значение для параметра загрязнения, не пробуя другие значения.
Вот форма данных:

У меня два вопроса;
Можно ли предсказать наилучшее значение параметра загрязнения перед выполнением алгоритма обнаружения аномалии?
В реальных приложениях, возможно ли, чтобы модель обнаружения аномалий точно обнаружила все аномалии?
Заранее спасибо.