Как я могу определить переменную цель в наборе данных для прогнозирования с помощью машинного обучения - PullRequest
0 голосов
/ 24 января 2020

Я работаю над проектом по использованию дерева решений для прогнозирования атак из журнала.

проблема в том, что после нормализации файлов журнала я не знаю, как определить выходной класс для сравнения результаты, полученные из дерева решений с реальными результатами.

, чтобы сказать правду, я не знаю, как определить реальный класс.

мне нужно сопоставить, чтобы определить класс?

Спасибо за помощь

Ответы [ 2 ]

0 голосов
/ 24 января 2020

благодарю @Running Rabbit, как я уже говорил, я нормализую набор журналов (журнал snort, журнал доступа от apache, журнал ошибок от apache) с протоколом IDMEF, подобным этому введите описание изображения здесь

и вот исходный файл журнала snort для примера: bastion snort: [1: 2001669: 1] Запрос GET веб-прокси BLEEDING-EDGE [Классификация: Потенциально неверный трафик] [Приоритет: 2]: {TCP } 220.170.88.36:3047 -> 11.11.79.82:80

цель состоит в том, как заставить классовую атаку определить, является ли атака или нет {да, нет} Я не знаю, как я могу это сделать нашел реальный целевой класс перед использованием DTA для прогнозирования.

Thank's

0 голосов
/ 24 января 2020

Ваши вопросы не ясны. Было бы замечательно, если бы вы могли поделиться журналами или результирующим набором данных, к которым вы стремитесь.

Однако вы можете проверить, следуете ли вы Классификации или Регрессии. Основное различие между ними заключается в том, что выходная переменная в регрессии является числовой (или непрерывной), а переменная для классификации - категориальной (или дискретной).

Поэтому проверьте столбцы, которые полностью описывают выше (классификация или регрессия)

...