Вы, вероятно, не хотите измерять производительность cluster
, но производительность cluster algorithm
, в данном случае kmeans
.
Во-первых, вам необходимо уточнить, что cluster distance measure
вы хотите использовать. Результатом вычисления кластера является dissimilarity matrix
, поэтому выбор меры расстояния является критическим, вы можете играть с euclidean
, manhattan
, любым видом correlation
или другой мерой расстояния, например, вот так:
library("factoextra")
dis_pearson <- get_dist(yourdataset, method = "pearson")
dis_pearson
fviz_dist(dis_pearson)
Это даст вам матрицу расстояний и визуализирует ее.
Вывод kmeans
содержит несколько бит информации. Наиболее важными в отношении вашего вопроса являются:
totss:
общая сумма квадратов withinss:
вектор внутрикластерной суммы квадратов tot.withinss:
общая сумма квадратов внутри кластера betweenss:
сумма квадратов между кластерами
Таким образом, цель состоит в том, чтобы оптимизировать эти путем игра с расстояниями и другими методами для кластеризации данных. Используя пакет cluster
, вы можете просто извлечь эти меры с помощью mycluster <- kmeans(yourdataframe, centers = 2)
и затем вызвать mycluster
.
Дополнительный комментарий: kmeans
требует количества кластеров, определенных пользователем (дополнительные усилия), и он очень чувствителен к выбросам.