Я пытаюсь работать с алгоритмом обнаружения неконтролируемых аномалий , где мой набор данных содержит только обычных данных журнала . Я использовал столбец полезная нагрузка из журнала для определения закономерностей в данных с использованием алгоритма Drain .
Так что теперь у меня есть следующие данные. Например, рассмотрим следующие три идентифицированных шаблона. Часть полужирный представляет ключ со значением, подлежащим замене в <*>. Часть itali c представляет значение, которое должно быть заменено каждым <*>.
экземпляром: <<em>> <</em>> предел не указан, по умолчанию неограниченный , ['34ae441714e744fab7a7a154811ee7b c memory']
<<em>> GET <</em>> HTTP / <<em>>. <</em>> статус: <<em>> len: <</em>> время: <<em>>. <</em>> , "['172.17.0.2', '/v2.1 / f09ddef028834df19337502ece1490c5 / servers / 34ae441714e744fab7a7a154811ee7b c ',' 1.1 ',' 200 ',' 1783 ',' 0.1045711 '] "
экземпляр: <<em> at на момент запроса: узел <</em>> память <<em>> МБ диск <</em>> ГБ vcpus <<em>> ЦП ,"['dc3b53790ca14b86abaa003c226412dd', 'wally117:', '4096', ' 40 ',' 2 '] "*
Существует еще много таких идентифицированных пар ключ-значение. Кроме того, шаблоны повторяются и имеют разные значения.
Для начала я использовал CountVectorizer для кодирования значений из столбца полезной нагрузки. Форма для ngram (1,1) близка к 40000, 21000 . Теперь я не уверен в своем следующем шаге к обнаружению аномалий, имея только один тип данных, то есть нормальный. В наборе данных нет аномальных данных.
Эта проблема также связана с временными рядами, связанными с обнаружением аномалий.
Было бы очень полезно, если бы кто-то мог мне помочь в подходе, который Я должен занять или несколько соответствующих сообщений.
Спасибо !!!