Как предварительно обработать / нормализовать набор данных IP-адресов для ввода в качестве алгоритма кластеризации K-Means? - PullRequest
1 голос
/ 13 марта 2019

Предположим, мне дали набор данных, состоящий из:

  1. IP-адрес источника (например: 10.200.32.150)
  2. Адрес порта источника (например: 443)
  3. IP-адрес назначения (например: 10.220.32.210)
  4. Адрес порта назначения (например: 80)

(IP-адреса или номера портов могут повторяться в наборе данных)

Теперь я хочу применить k означает кластеризацию в наборе данных.Каков наилучший подход для предварительной обработки данных или для нормализации данных?

На данный момент я сделал следующее: сначала я разделил каждый IP-адрес на основе "."и таким образом у меня было бы 4 целых числа для каждого IP.Всего у меня будет 10 целых чисел.

Для данных примера у меня после разбиения будет следующее: 10 200 32 150 443 10 200 32 210 80

Теперь рассмотрим этот типданных в качестве входных данных для моего алгоритма K-средства и найти различные кластеры.(Могут быть «M» числа таких данных, которые я дам в качестве входных данных)

Я также нормализовал значения (масштабированные от 0 до 1) и также применил там алгоритм K-средних.

Теперь я хочу знать, в порядке ли мой подход или нет?Или я должен следовать другому подходу предварительной обработки / нормализации?Моя конечная цель этой проблемы - разработать некоторые выбросы / аномалии после применения любого неконтролируемого алгоритма машинного обучения, так как набор данных не помечен.

Спасибо.

1 Ответ

0 голосов
/ 13 марта 2019

Ваше решение простое, но не взвешенное.Подумайте о IP1:10.200.32.150 IP2:10.200.32.151 и IP3:11.200.32.151, разница только в один бит между IP1 IP2 и IP2 IP3, но первые два гораздо ближе.Невзвешенный набор данных приведет к неправильным параметрам при обучении.

То, что я предложил, это соответственно прибавить вес в битах, 10 получит самый высокий, а 151 получит самый низкий.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...