Я новичок в машинном обучении, так что терпите меня.
Моя цель - написать алгоритм ml, обученный распознавать аномалии в сетевых журналах.Журналы имеют формат csv со следующими полями: TIMESTAMP, EVENT CATEGORY, SRC_IP, SRC_PORT, DST_IP, DST_PORT, EVENT COUNT, URL (if any), DOMAIN (if any).
У меня есть как журналы «заведомо исправно», так и «заведомо исправно».
Одним из примеров аномалий может быть сканирование порта (большое количество соединений вкороткий промежуток времени с большим количеством портов - возможно, смежные номера портов?), или соединения в подозрительных временных рамках, чем обычно (например, в 3 часа ночи в субботу).
Я не совсем понимаю, как поступить,Моя главная проблема в том, что я не знаю, как «измерить» эти поведения.Все примеры учебников, которые я нашел, имеют дело с «ощутимыми» (числовыми) показателями, такими как набор данных iris.Какой хороший способ подойти к этому?У вас есть примеры в литературе, на которые я могу сослаться?(каждая статья, которую я нашел, была теоретическим подходом!).
Должен ли я добавить этап предварительной обработки, на котором я группирую журналы по ip источника или назначения?