Имеет ли значение порядок данных? - PullRequest
1 голос
/ 20 сентября 2019

Я использую R для выполнения иерархической кластеризации по категориальным данным.Я пробую разные переменные из моей выборки, чтобы определить те, которые дают значимые результаты кластеризации.Однако я заметил, что если я изменю порядок данных, результаты будут другими.Это связано с тем, как работает hclust, или я что-то упускаю?

Для каждого испытания я извлекаю определенное количество столбцов (в следующем примере я использовал столбцы 3,28,50,14).

my.data.final <- data.frame(read.csv("C:\\Final dataset-for R.csv"))

library(dplyr)
my.data.final <- my.data.final %>% mutate_if(is.character,as.factor)
my.data.final <- my.data.final %>% mutate_if(is.integer,as.factor)
my.data.final$Age <- factor(my.data.final$Age, ordered = TRUE)

my.data3 <- my.data.final[,c(3,28,50,14)]
my.data3 <- na.exclude(my.data3, row.names=1)
complete.cases(my.data3)

library(cluster)
dist.gower <- daisy(my.data3, metric = "gower")
aggl.clust.c <- hclust(dist.gower, method = "complete")
plot(aggl.clust.c,
     main = "Agglomerative, complete linkages")

Когда я меняю порядок столбцов в строке:

my.data3 <- my.data.final[,c(3,28,50,14)]

Я заметил, что дендрограмма меняется.Ожидается ли это с hclust?Я обнаружил, что строка:

 my.data.final$Age <- factor(my.data.final$Age, ordered = TRUE)

как-то влияет на результат, но я не совсем уверен, почему.

...