Какова интуиция за центроидной связью в иерархической кластеризации? - PullRequest
2 голосов
/ 04 ноября 2019

В приведенном ниже примере кода я ожидал бы дерево с 3 ветвями, если бы оно действительно использовало центроиды. Действительно, 2 ближайших точки - это A и B с расстоянием 1

Я знаю, что используется формула Ланса-Уильямсадля вычисления расстояний (https://stats.stackexchange.com/questions/217519/centroid-linkage-clustering-with-hclust-yields-wrong-dendrogram). Таким образом, расстояние между (A, B) и C составляет 0,5 * (sqrt (5) / 2) + 0,5 * (sqrt (5) / 2) - 1/4 = 0,868Но что это значит и какова связь с центроидами?

Пример кода: `

A <- c(0,0)
B <- c(1,0)
C <- c(0.5, 1)
df <- t(data.frame(A=A, B=B, C=C))
plot(df)
hc <- hclust(d = dist(df), method = "centroid")
library(ggdendro)
p <- ggdendrogram(hc, rotate = FALSE, size = 2)
p

`

...