Предположим, мне дали набор данных, состоящий из:
- IP-адрес источника (например: 10.200.32.150)
- Адрес порта источника (например: 443)
- IP-адрес назначения (например: 10.220.32.210)
- Адрес порта назначения (например: 80)
(IP-адреса или номера портов могут повторяться в наборе данных)
Теперь я хочу применить k означает кластеризацию в наборе данных.Каков наилучший подход для предварительной обработки данных или для нормализации данных?
На данный момент я сделал следующее: сначала я разделил каждый IP-адрес на основе "."и таким образом у меня было бы 4 целых числа для каждого IP.Всего у меня будет 10 целых чисел.
Для данных примера у меня после разбиения будет следующее: 10 200 32 150 443 10 200 32 210 80
Теперь рассмотрим этот типданных в качестве входных данных для моего алгоритма K-средства и найти различные кластеры.(Могут быть «M» числа таких данных, которые я дам в качестве входных данных)
Я также нормализовал значения (масштабированные от 0 до 1) и также применил там алгоритм K-средних.
Теперь я хочу знать, в порядке ли мой подход или нет?Или я должен следовать другому подходу предварительной обработки / нормализации?Моя конечная цель этой проблемы - разработать некоторые выбросы / аномалии после применения любого неконтролируемого алгоритма машинного обучения, так как набор данных не помечен.
Спасибо.