Я сравнил ширину силуэтов различных алгоритмов кластеров в одном наборе данных: k-means, clara и pam.Я вижу, какой из них имеет наибольшее значение по ширине силуэта.Но могу ли я теперь статистически проверить, отличаются ли решения друг от друга, как мы обычно делаем с ANOVA?
Я сформулировал гипотезу для своего тезиса, что Клара и Пэм дадут более достоверные результаты, чем k-средства.Я знаю, что ширина силуэта у них обоих выше, но я не знаю, как я могу статистически подтвердить / опровергнуть мою гипотезу.
#######4: Behavioral Clustering
##4.1 Kmeans
kmeans.res.4.1 <- kmeans(ClusterDFSBeha, 2)
print(kmeans.res.4.1)
#Calculate SW
library(clValid)
intern4.1 <- clValid(ClusterDFSBeha, 2, clMethods="kmeans",validation="internal", maxitems = 9800)
summary(intern4.1)
#Silhouette width = 0.7861
##4.2 PAM
pam.res.4.2 <- pam(ClusterDFSBeha, 2)
print(pam.res.4.2)
intern4.2 <- clValid(ClusterDFSBeha, 2, clMethods="pam", validation="internal", maxitems = 9800)
summary(intern4.2)
#Silhouette width = 0.6702
##4.3 Clara
clara.res.4.3 <- clara(ClusterDFSBeha,2)
print(clara.res.4.3)
intern4.3 <- clValid(ClusterDFSBeha, 2, clMethods="clara", validation="internal", maxitems = 9800)
summary(intern4.3)
#Silhouette width = 0.8756
Теперь я хотел бы статистически оценить, отличаются ли методы статистически "«друг от друга, чтобы иметь возможность отклонить или одобрить мою гипотезу с определенным уровнем р.