У меня есть более 5000 наблюдений.В моей попытке проанализировать мои данные, используя иерархическую кластеризацию, у меня есть 8 кластеров, где некоторые из кластеров содержат несколько 100 или 1000 отдельных наблюдений.
# Cut tree into 8 groups
cutree_hclust <- cutree(hclust.unsupervised, k = 8)
# Number of members in each cluster
table(cutree_hclust)
Далее приводится иллюстрация размера каждого кластера.:
cutree_hclust
1 2 3 4 5 6 7 8
867 61 14 310 1135 432 119 5
Чтобы получить представление о том, какая комбинация переменных существует для каждого наблюдения в разных кластерах, я подумал, что было бы неплохо сделать 8 кластеров в качестве фреймов данных, поэтому я могу проанализировать их отдельно,Это потому, что я не представляю, какие разные строки находятся в разных столбцах, и поэтому не знаю, каков шаблон в общей таблице данных (Complete_df).
Однако как я могу создать эти новые кадры данных?
Я могу видеть, что я предполагаю, чтобы быть строками в разных кластерах, fx:
rownames(MY_df)[cutree_hclust == 7]
[1] "60" "72" "92" "97" "110" "210" "211" "267"
[9] "565"
Но если я наберу:
h_clust <- as.dataframe( rownames(MY_df)[cutree_hclust == 7])
, я получу только представление(в виде списка) того, какие строки в этом кластере и все остальные столбцы не включены.
Как я могу выбрать эти конкретные строки в моем фрейме данных с именем: Complete_df - чтобы я мог видеть, что общая переменнаякомбинация для каждого кластера?
Я пробовал следующее:
rn <- rownames(MY_df)[cutree_hclust == 7]; subset(Complete_df, rn %in% rownames(MY_df))
- это из: R как выбрать несколько строк для создания нового кадра данных
и
Clust_7 <- rownames(MY_df)[cutree_hclust == 7]
Clust_7_df <- data.frame(matrix(unlist(Clust_7), nrow=9, byrow=T))
Вышеуказанная попытка не сработала.
Я с нетерпением жду ответа от любого, кто может помочь - поскольку я не смог понять это для себя :-)