Есть ли способ в R визуально показать, какой атрибут вызывает кластеризацию в иерархическом кластере? - PullRequest
0 голосов
/ 05 марта 2019

Иерархический кластер сгруппирует элементы, которые наиболее похожи, на основе матрицы сходства.Но как определить, что в кластере похоже, и как визуально показать это?

Рассмотрим следующий код:

data(USArrests)
# Compute distances and hierarchical clustering
dd <- dist(scale(USArrests), method = "euclidean")
hc <- hclust(dd, method = "ward.D2")
plot(hc, hang = -1, cex = 0.6)

Таблица сама содержит информацию о каждомсостояние и уровень убийств, уровень нападений, население и т. д. (я буду ссылаться на каждый столбец как на атрибут).Применяя кластер к данным, мы видим вместе такие штаты, как кластер Алабама, Луизиана, Джорджия и Теннесси.

Как я могу определить, какой атрибут вызывает кластеризацию некоторых штатов?Например, может случиться так, что в четырех штатах, упомянутых выше, в каждом из них действительно высокий уровень нападений, низкий уровень убийств и похожая городская популярность.Но кроме расчета отклонения каждого атрибута для каждого кластера, есть ли более простой способ определить это и, что самое важное, визуализировать его?

Ответы [ 2 ]

0 голосов
/ 18 марта 2019

Я думаю, что вы задаете не тот вопрос.Чтобы состояния были в одном кластере, они должны быть несколько похожи в всех измерениях.Думаю, лучше задать вопрос: почему другие государства не попадают в один кластер?Чем отличаются другие штаты?У вас есть только четыре измерения, поэтому легко взглянуть на все измерения.Я буду использовать ваш пример Алабамы, Луизианы, Джорджии и Теннесси.

n = 10
CL = cutree(hc, n)
which(CL ==1)
  Alabama   Georgia Louisiana Tennessee 
        1        10        18        42 

par(mfrow=c(1,2))
plot(USArrests[,2:3], pch=20, col=rainbow(n, end=0.75)[CL])
plot(USArrests[,c(1,4)], pch=20, col=rainbow(n, end=0.75)[CL])
legend("topleft", legend=1:n, pch=20, col=rainbow(n, end=0.75), bty="n")

USArrests

Теперь мы можем сравнивать разные кластеры.Например, кластер 10 (фиолетовый) совершенно другой.

which(CL ==10)
North Dakota  South Dakota       Vermont West Virginia 
         34            41            45            48 

Кластер 10 является низким во всех четырех измерениях, тогда как кластер 1 имеет довольно высокий уровень убийств и несколько выше во всех трех других измерениях.Не очень похоже.

Кластер 9 (темно-синий).

which(CL ==9)
   Mississippi North Carolina South Carolina 
            24             33             40

Это другие государства глубокого юга, которые, как мы можем ожидать, будут больше похожи на кластер 1. Действительно, они очень похожи в измерениях изнасилований и убийств.Кластеры перекрываются.Все же они - различные группы из-за других измерений.Кластер 9 имеет более низкое городское население, но более высокий уровень нападений.

Предположительно, точки в любом кластере похожи.Для любой пары групп вы можете взглянуть на две на этих графиках и понять, почему они разные.

0 голосов
/ 05 марта 2019

Вероятно, вам нужен кластерный анализ K-средних.Вот статья с использованием точного примера, который у вас есть, о том, как использовать его, чтобы разделить эти области сходства в каждой с помощью визуализации.

https://www.datanovia.com/en/lessons/k-means-clustering-in-r-algorith-and-practical-examples/

...