Существует ли функция R для статистического сравнения различных кластерных решений? (например, решение k-средних с раствором Пэм / Клары) - PullRequest
1 голос
/ 02 мая 2019

Я сравнил ширину силуэтов различных алгоритмов кластеров в одном наборе данных: k-means, clara и pam.Я вижу, какой из них имеет наибольшее значение по ширине силуэта.Но могу ли я теперь статистически проверить, отличаются ли решения друг от друга, как мы обычно делаем с ANOVA?

Я сформулировал гипотезу для своего тезиса, что Клара и Пэм дадут более достоверные результаты, чем k-средства.Я знаю, что ширина силуэта у них обоих выше, но я не знаю, как я могу статистически подтвердить / опровергнуть мою гипотезу.

 #######4: Behavioral Clustering
 ##4.1 Kmeans
 kmeans.res.4.1 <- kmeans(ClusterDFSBeha, 2)
 print(kmeans.res.4.1)
 #Calculate SW
 library(clValid)
 intern4.1 <- clValid(ClusterDFSBeha, 2, clMethods="kmeans",validation="internal", maxitems = 9800)
 summary(intern4.1)
 #Silhouette width = 0.7861

##4.2 PAM
pam.res.4.2 <- pam(ClusterDFSBeha, 2)
print(pam.res.4.2)
intern4.2 <- clValid(ClusterDFSBeha, 2, clMethods="pam", validation="internal", maxitems = 9800)
summary(intern4.2)
#Silhouette width = 0.6702

##4.3 Clara
clara.res.4.3 <- clara(ClusterDFSBeha,2)
print(clara.res.4.3)
intern4.3 <- clValid(ClusterDFSBeha, 2, clMethods="clara", validation="internal", maxitems = 9800)
summary(intern4.3)
#Silhouette width = 0.8756

Теперь я хотел бы статистически оценить, отличаются ли методы статистически "«друг от друга, чтобы иметь возможность отклонить или одобрить мою гипотезу с определенным уровнем р.

Ответы [ 2 ]

0 голосов
/ 02 мая 2019

Такое сравнение никогда не будет справедливым.

В любом таком тесте делаются некоторые предположения, и следует ожидать, что метод кластеризации, основанный на аналогичных предположениях, получит лучшие результаты.

Например, если вы используете Силуэт с евклидовым расстоянием, PAM с евклидовым расстоянием и k-средних, следует ожидать, что PAM имеет преимущество. Если вместо этого вы использовали Силуэт с квадратом евклидовым расстоянием, то k-означает почти наверняка, что будет лучше всего (и почти наверняка превзойдет PAM с евклидовым квадратом).

То есть вы не судите, какой метод «лучше», а какой больше соответствует вашему методу оценки.

0 голосов
/ 02 мая 2019

Это не идеальный ответ.

Если вы хотите проверить «качество» метода кластеризации, лучше посмотреть на раздел, заданный алгоритмом.

Для проверки вы можете сравнить разделение по мере как ARI (Скорректированный индекс ранга), мы называем это относительной эффективностью. Другая идея состоит в том, чтобы использовать смоделированные данные, где вы знаете истинную метку, и благодаря им вы можете сравнить свой результат, насколько вы далеки от правды. Последнее, что я знаю, это оценить устойчивость вашего метода кластеризации к небольшому возмущению данных: алгоритм разрыва Роба Тибширани.

Но на самом деле в теории кластеризации (неконтролируемая классификация) действительно трудно оценить уместность кластера. У нас меньше критериев выбора модели, чем для контролируемой учебной задачи.

Я действительно посоветовал вам поискать в Интернете, например, это описание пакета, кажется, хорошее введение:

https://cran.r -project.org / веб / пакеты / clValid / виньетки / clValid.pdf

Чтобы ответить прямо, я не думаю, что то, что вы ищете, существует. Если да, я буду очень рад узнать об этом больше.

...