Я думаю, что вы задаете не тот вопрос.Чтобы состояния были в одном кластере, они должны быть несколько похожи в всех измерениях.Думаю, лучше задать вопрос: почему другие государства не попадают в один кластер?Чем отличаются другие штаты?У вас есть только четыре измерения, поэтому легко взглянуть на все измерения.Я буду использовать ваш пример Алабамы, Луизианы, Джорджии и Теннесси.
n = 10
CL = cutree(hc, n)
which(CL ==1)
Alabama Georgia Louisiana Tennessee
1 10 18 42
par(mfrow=c(1,2))
plot(USArrests[,2:3], pch=20, col=rainbow(n, end=0.75)[CL])
plot(USArrests[,c(1,4)], pch=20, col=rainbow(n, end=0.75)[CL])
legend("topleft", legend=1:n, pch=20, col=rainbow(n, end=0.75), bty="n")
Теперь мы можем сравнивать разные кластеры.Например, кластер 10 (фиолетовый) совершенно другой.
which(CL ==10)
North Dakota South Dakota Vermont West Virginia
34 41 45 48
Кластер 10 является низким во всех четырех измерениях, тогда как кластер 1 имеет довольно высокий уровень убийств и несколько выше во всех трех других измерениях.Не очень похоже.
Кластер 9 (темно-синий).
which(CL ==9)
Mississippi North Carolina South Carolina
24 33 40
Это другие государства глубокого юга, которые, как мы можем ожидать, будут больше похожи на кластер 1. Действительно, они очень похожи в измерениях изнасилований и убийств.Кластеры перекрываются.Все же они - различные группы из-за других измерений.Кластер 9 имеет более низкое городское население, но более высокий уровень нападений.
Предположительно, точки в любом кластере похожи.Для любой пары групп вы можете взглянуть на две на этих графиках и понять, почему они разные.