Question

Кто-нибудь может объяснить, что на самом деле означает вывод кластеризации K-Means в WEKA.

Например

kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0

Что на самом деле означают числа в столбцах, там написано, что центроиды кластеров над таблицей, но как можно определить, какими являются центроиды двух кластеров?

Если бы кто-нибудь мог объяснить, что означают цифры, я был бы очень признателен.

Если у кого-нибудь есть идеи, как выполнить оценку силуэта найденных кластеров, это также было бы замечательно.

Спасибо

Yuval F · Answer 1 · 16 мая 2011

В первом столбце отображается общая численность населения.Во втором и третьем столбцах указаны центроиды для кластера 0 и 1 соответственно.Каждая строка дает координату центроида для конкретного измерения.

Я полагаю, вам нужно освежить свои K-средства .Нахождение центроидов является неотъемлемой частью алгоритма.Центроиды являются результатом определенного прогона алгоритма и не являются уникальными - другой прогон может генерировать другой набор центроидов.

Пожалуйста, см. Майкл Абернети, описывающий кластеризацию Weka для получения более подробной информации..

koko.auth · Answer 2 · 13 января 2013

Просто первый шаг,

Сохранить график на вкладке визуализации в виде файла arff.
Откройте его с помощью weka и нажмите «Изменить», вы автоматически увидите, к какому кластеру относится каждый экземпляр.
Скопируйте эту таблицу в Excel (для наглядности)
Используйте Excel или Matlab, чтобы найти силуэт, сплоченность, разделение классическими методами.

nhegroj · Answer 3 · 17 августа 2014

Сначала кластеризация представляет собой описательные статистические методы. Во-вторых, алгоритм Kmeans требует заранее ввести количество кластеров, чтобы найти оптимальное количество кластеров, несколькими статистическими методами. В-третьих, центроиды числовых данных представляют собой среднее арифметическое данных, которые составляют кластеры. Таким образом, эти данные представляют данные группы.

Gaurav · Answer 4 · 30 марта 2012

Используйте наиболее частое значение для атрибута в кластере, если атрибут является номинальным.Используйте среднее значение для атрибута в кластере, если атрибут числовой.Проверьте эту ссылку для более подробной информации.

WEKA K-Means Clustering

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

WEKA K-Means Clustering

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы