Как я могу обучить алгоритм обнаружения аномалий с набором данных системных журналов, имеющих номера и текст? - PullRequest
0 голосов
/ 17 марта 2020

Я пытаюсь работать с алгоритмом обнаружения неконтролируемых аномалий , где мой набор данных содержит только обычных данных журнала . Я использовал столбец полезная нагрузка из журнала для определения закономерностей в данных с использованием алгоритма Drain .

Так что теперь у меня есть следующие данные. Например, рассмотрим следующие три идентифицированных шаблона. Часть полужирный представляет ключ со значением, подлежащим замене в <*>. Часть itali c представляет значение, которое должно быть заменено каждым <*>.

экземпляром: <<em>> <</em>> предел не указан, по умолчанию неограниченный , ['34ae441714e744fab7a7a154811ee7b c memory']

<<em>> GET <</em>> HTTP / <<em>>. <</em>> статус: <<em>> len: <</em>> время: <<em>>. <</em>> , "['172.17.0.2', '/v2.1 / f09ddef028834df19337502ece1490c5 / servers / 34ae441714e744fab7a7a154811ee7b c ',' 1.1 ',' 200 ',' 1783 ',' 0.1045711 '] "

экземпляр: <<em> at на момент запроса: узел <</em>> память <<em>> МБ диск <</em>> ГБ vcpus <<em>> ЦП ,"['dc3b53790ca14b86abaa003c226412dd', 'wally117:', '4096', ' 40 ',' 2 '] "*

Существует еще много таких идентифицированных пар ключ-значение. Кроме того, шаблоны повторяются и имеют разные значения.

Для начала я использовал CountVectorizer для кодирования значений из столбца полезной нагрузки. Форма для ngram (1,1) близка к 40000, 21000 . Теперь я не уверен в своем следующем шаге к обнаружению аномалий, имея только один тип данных, то есть нормальный. В наборе данных нет аномальных данных.

Эта проблема также связана с временными рядами, связанными с обнаружением аномалий.

Было бы очень полезно, если бы кто-то мог мне помочь в подходе, который Я должен занять или несколько соответствующих сообщений.

Спасибо !!!

...