У меня есть более 5000 наблюдений. В моей попытке анализа моих данных с использованием иерархической кластеризации у меня есть 8 кластеров, где некоторые строки содержат несколько тысяч или 100 наблюдений.
# Cut tree into 8 groups
cutree_hclust <- cutree(hclust.unsupervised, k = 8)
# Number of members in each cluster
table(cutree_hclust)
cutree_hclust
1 2 3 4 5 6 7 8
486 61 14 3 15 2 9 5
Чтобы получить представление о том, какая комбинация переменных существует для каждого наблюдения в разных кластерах, я подумал, что было бы неплохо сделать 8 кластеров в качестве кадров данных, поэтому я могу проанализировать их отдельно. Это потому, что я не представляю, какие строки находятся в разных столбцах, и поэтому не знаю, каков шаблон в общей диаграмме данных (Complete_df).
Однако, как я могу создать эти новые кадры данных?
Я могу видеть, какие строки находятся в разных кластерах, fx:
rownames(MY_df)[cutree_hclust == 7]
[1] "65" "21" "21" "70" "101" "104" "112" "673"
[9] "651"
Но если я наберу
h_clust <- as.dataframe( rownames(MY_df)[cutree_hclust == 7])
Я получаю только представление (в виде списка) о том, какие строки находятся в этом кластере, а все остальные столбцы не включены.
Но как я могу превратить это в кадр данных, не вводя последовательность строк / столбцов в квадратных скобках 5000 раз?