WEKA K-Means Clustering - PullRequest
       42

WEKA K-Means Clustering

8 голосов
/ 26 апреля 2011

Кто-нибудь может объяснить, что на самом деле означает вывод кластеризации K-Means в WEKA.

Например

kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0  

Что на самом деле означают числа в столбцах, там написано, что центроиды кластеров над таблицей, но как можно определить, какими являются центроиды двух кластеров?

Если бы кто-нибудь мог объяснить, что означают цифры, я был бы очень признателен.

Если у кого-нибудь есть идеи, как выполнить оценку силуэта найденных кластеров, это также было бы замечательно.

Спасибо

Ответы [ 4 ]

4 голосов
/ 16 мая 2011

В первом столбце отображается общая численность населения.Во втором и третьем столбцах указаны центроиды для кластера 0 и 1 соответственно.Каждая строка дает координату центроида для конкретного измерения.

Я полагаю, вам нужно освежить свои K-средства .Нахождение центроидов является неотъемлемой частью алгоритма.Центроиды являются результатом определенного прогона алгоритма и не являются уникальными - другой прогон может генерировать другой набор центроидов.

Пожалуйста, см. Майкл Абернети, описывающий кластеризацию Weka для получения более подробной информации..

3 голосов
/ 13 января 2013

Просто первый шаг,

  1. Сохранить график на вкладке визуализации в виде файла arff.

  2. Откройте его с помощью weka и нажмите «Изменить», вы автоматически увидите, к какому кластеру относится каждый экземпляр.

  3. Скопируйте эту таблицу в Excel (для наглядности)

  4. Используйте Excel или Matlab, чтобы найти силуэт, сплоченность, разделение классическими методами.

0 голосов
/ 17 августа 2014

Сначала кластеризация представляет собой описательные статистические методы. Во-вторых, алгоритм Kmeans требует заранее ввести количество кластеров, чтобы найти оптимальное количество кластеров, несколькими статистическими методами. В-третьих, центроиды числовых данных представляют собой среднее арифметическое данных, которые составляют кластеры. Таким образом, эти данные представляют данные группы.

0 голосов
/ 30 марта 2012

Используйте наиболее частое значение для атрибута в кластере, если атрибут является номинальным.Используйте среднее значение для атрибута в кластере, если атрибут числовой.Проверьте эту ссылку для более подробной информации.

...