Нечеткая кластеризация дампов c-означает tcp в Matlab - PullRequest
1 голос
/ 02 октября 2011

Привет, у меня есть некоторые данные, которые представлены так:

0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.

Это из кубка КДД 1999 года, основанного на наборе дарпа.

текстовый файл, который у меня есть, содержит строки и строки данных, подобные этой, в matlab есть универсальный инструмент кластеризации, который вы можете использовать, набрав findcluster, но он принимает только файлы .dat.

Я тоже не очень уверен, примет ли он такой формат. Я также не уверен, почему в файлах дампа так много конечных нулей.

Может кто-нибудь помочь, как я могу использовать текстовый документ и запустить его с помощью метода кластеризации fcm в matlab? Справка по коду действительно нужна.

1 Ответ

2 голосов
/ 02 октября 2011

FINDCLUSTER - это просто графический интерфейс для двух алгоритмов кластеризации: FCM и SUBCLUST

Сначала необходимо прочитать данные из файладля этого посмотрите на функцию TEXTSCAN .

Тогда вам нужно разобраться с нечисловыми атрибутами;либо удалите их, либо конвертируйте их как-нибудь.Насколько я могу судить, два упомянутых алгоритма поддерживают только числовые данные.

Посетите исходный веб-сайт набора данных KDD cup , чтобы узнать описание каждого атрибута.

...