Распознавание образов в логах - PullRequest
0 голосов
/ 09 июля 2019

У меня длинный список журналов, в которых я должен идентифицировать шаблоны в каждом журнале.Шаблон может состоять из одной или нескольких строк, повторяемых n раз.Я хочу решить эту проблему, чтобы одна модель / код могла распознавать шаблон для всех других журналов, где они могут иметь другие шаблоны.Каков наилучший способ справиться с этим?Подойдет любой алгоритм машинного обучения или код.Мне просто нужна идея, как решить эту проблему.

PS: я отформатировал все журналы в одном формате, где каждая запись имеет определенные атрибуты, такие как метка времени, операция и т. Д.

Пример:

(1).a, b, c, d, a, e, f

Здесь a повторяется многократно, поэтому шаблон представляет собой.

(2).a, b, c, d, a, b, h, g, a, b, q, w

Здесь a, b повторяется несколько раз, поэтому шаблон представляет собой a, b

Предположим, что в серии операций только одна операция выполняется несколько раз.Фактические журналы имеют несколько шаблонов, которые в конце должны быть идентифицированы.На данный момент определение только одного шаблона должно укрепить мое понимание.

Рассмотрим таблицу SQL с 1000 строками.Данные представляют собой данные временного ряда, в которых первая запись является самой старой, а последняя - самой новой.Теперь, в такой таблице, как определить шаблон, который может быть одной строкой, повторенной многократно в любой момент времени в таблице или группе строк в последовательности, повторенной несколько раз.

...