R как выбрать несколько строк для создания нового кадра данных - PullRequest
0 голосов
/ 05 мая 2018

У меня есть более 5000 наблюдений. В моей попытке анализа моих данных с использованием иерархической кластеризации у меня есть 8 кластеров, где некоторые строки содержат несколько тысяч или 100 наблюдений.

# Cut tree into 8 groups
cutree_hclust <- cutree(hclust.unsupervised, k = 8)

# Number of members in each cluster
table(cutree_hclust)

cutree_hclust
   1    2    3    4    5    6    7    8 
  486   61  14    3   15    2    9    5 

Чтобы получить представление о том, какая комбинация переменных существует для каждого наблюдения в разных кластерах, я подумал, что было бы неплохо сделать 8 кластеров в качестве кадров данных, поэтому я могу проанализировать их отдельно. Это потому, что я не представляю, какие строки находятся в разных столбцах, и поэтому не знаю, каков шаблон в общей диаграмме данных (Complete_df).

Однако, как я могу создать эти новые кадры данных?

Я могу видеть, какие строки находятся в разных кластерах, fx:

rownames(MY_df)[cutree_hclust == 7]

[1] "65"  "21"  "21"  "70"  "101" "104" "112" "673"
[9] "651"

Но если я наберу

h_clust <- as.dataframe( rownames(MY_df)[cutree_hclust == 7])

Я получаю только представление (в виде списка) о том, какие строки находятся в этом кластере, а все остальные столбцы не включены.

Но как я могу превратить это в кадр данных, не вводя последовательность строк / столбцов в квадратных скобках 5000 раз?

...