Я проверяю кластерное решение k-средних, определяя его воспроизводимость для удерживающей выборки. Я хочу продемонстрировать сопоставимость центроидов кластеров для тестовых и проверочных образцов, отображая их диаграммы рассеяния. Однако расположение кластеров в матрице диаграмм рассеяния вращается, что препятствует их сопоставимости.
Я использую функцию fviz_cluster в пакете factoextra () для визуализации диаграммы рассеяния кластера для выбранного кластерного решения. При отображении на диаграмме рассеяния решения не отражают друг друга, и нумерация кластеров отличается.
код источника: http://uc -r.github.io / kmeans_clustering
library(factoextra)
library(gridExtra)
запустить алгоритм кластеризации k-средних
k5.Test <- kmeans(Test.data, centers = 5, nstart = 25)
k5.Validate <- kmeans(Validate.data, centers = 5, nstart = 25)
генерировать графики
p5Test<- fviz_cluster(k5.Test, geom = "point", data = Test.data) + ggtitle("Test sample, k = 5")
p5Validate<- fviz_cluster(k5.Validate, geom = "point", data = Validate.data) + ggtitle("Validation sample, k = 5")
отображать графики рядом для сравнения
grid.arrange(p4Test,p4Validate,nrow=1)
Результаты ожидаемые: форма скоплений на диаграммах рассеяния очень похожа друг на друга, однако расположение не является оптимальным. Проверка значений центроидов кластера показывает, что они сопоставляются друг с другом после перенумерации кластеров.
Я бы хотел, чтобы диаграммы рассеяния отражали друг друга в конфигурации кластеров для облегчения сравнения.