Я пытаюсь понять статью: https://netman.aiops.org/wp-content/uploads/2018/05/PID5338621.pdf о надежной и быстрой кластеризации KPI для крупномасштабного обнаружения аномалий.
Кластеризация выполняется с использованием алгоритма ROCKA.
Шаги:
1.) Предварительная обработка выполняется на необработанных данных KPI для устранения разностей амплитуд и стандартизации данных.
2.) На этапе базового извлечения мы уменьшаем шумы, удаляем экстремальные значения(которые, вероятно, являются аномалиями) и извлекают базовые формы, называемые базовыми показателями, KPI.Это делается путем применения скользящего среднего с небольшим скользящим окном.
3.) Затем проводится кластеризация по базовым линиям выбранных KPI с устойчивостью к фазовым сдвигам и помехам.
4.) Наконец,мы вычисляем центр тяжести каждого кластера, затем назначаем непомеченные KPI по их расстояниям до этих центроидов.
Я понимаю механизм ROCKA.
Теперь я пытаюсь понять алгоритм DONUT, которыйприменяется для «Обнаружения аномалий».
Как это работает:
DONUT применяет скользящие окна к KPI для получения коротких серий x и пытается распознать, что следует нормальным шаблонам x.Затем показатель рассчитывается по разнице между восстановленными нормальными закономерностями и x, чтобы показать степень серьезности аномалий.На практике пороговое значение должно быть выбрано для каждого KPI.Точка данных со значением индикатора, превышающим пороговое значение, рассматривается как аномалия.
Теперь мой вопрос:
Похоже, что DONUT недостаточно устойчив к аномалиям, связанным с информацией о времени.Это означает, что он работает на множестве скользящих окон и игнорирует отношения между окнами.Таким образом, окно становится очень важным параметром здесь.Так что это может привести к высоким ложным срабатываниям.Что я здесь не так понимаю?
Пожалуйста, помогите и дайте мне понять, как DONUT будет фиксировать отношения между скользящими окнами.