Я использую наборы данных CTU-13, состоящие из 13 сценариев для обнаружения ботнета. Здесь целевая переменная Label является переменной строкового типа. Кодирование метки для этой переменной просто создает около 52-60 уникальных числовых значений, числа варьируются в зависимости от сценария. Но я заметил, что если можно выполнить кодирование метки с использованием сопоставления подстрок или регулярного выражения, то мы можем просто закодировать до 3 чисел. Тогда проблемой будет проблема тринациональной классификации (3 класса). Затем при построении графика ROC определение показателя auc будет достаточно простым.
Например, отображение 3 различных случаев, таких как "% background%: 0,% normal%: 1,% botnet%: 2 может быть сделано. Тогда, если экземпляр String, такой как , в фоновый поток udp , то помечает его как 0, экземпляр как в обычные потоки tcp помечает его как 1и т. д. Есть ли какой-либо стандартный или индивидуальный способ кодирования, как указано выше?