R: помочь проанализировать содержимое кластера в иерархической кластеризации - PullRequest
0 голосов
/ 12 мая 2018

У меня есть более 5000 наблюдений.В моей попытке проанализировать мои данные, используя иерархическую кластеризацию, у меня есть 8 кластеров, где некоторые из кластеров содержат несколько 100 или 1000 отдельных наблюдений.

# Cut tree into 8 groups
cutree_hclust <- cutree(hclust.unsupervised, k = 8)

# Number of members in each cluster
table(cutree_hclust)

Далее приводится иллюстрация размера каждого кластера.:

cutree_hclust
   1    2    3    4    5    6    7    8 
  867  61  14   310  1135  432   119  5

Чтобы получить представление о том, какая комбинация переменных существует для каждого наблюдения в разных кластерах, я подумал, что было бы неплохо сделать 8 кластеров в качестве фреймов данных, поэтому я могу проанализировать их отдельно,Это потому, что я не представляю, какие разные строки находятся в разных столбцах, и поэтому не знаю, каков шаблон в общей таблице данных (Complete_df).

Однако как я могу создать эти новые кадры данных?

Я могу видеть, что я предполагаю, чтобы быть строками в разных кластерах, fx:

rownames(MY_df)[cutree_hclust == 7]

[1] "60"  "72"  "92"  "97"  "110" "210" "211" "267"
[9] "565"

Но если я наберу:

h_clust <- as.dataframe( rownames(MY_df)[cutree_hclust == 7])

, я получу только представление(в виде списка) того, какие строки в этом кластере и все остальные столбцы не включены.

Как я могу выбрать эти конкретные строки в моем фрейме данных с именем: Complete_df - чтобы я мог видеть, что общая переменнаякомбинация для каждого кластера?

Я пробовал следующее:

rn <- rownames(MY_df)[cutree_hclust == 7]; subset(Complete_df, rn %in% rownames(MY_df))

- это из: R как выбрать несколько строк для создания нового кадра данных

и

Clust_7 <- rownames(MY_df)[cutree_hclust == 7]

Clust_7_df <- data.frame(matrix(unlist(Clust_7), nrow=9, byrow=T))

Вышеуказанная попытка не сработала.

Я с нетерпением жду ответа от любого, кто может помочь - поскольку я не смог понять это для себя :-)

Ответы [ 2 ]

0 голосов
/ 12 мая 2018

Я беру в качестве примера фрейм данных mtcars.

df <- mtcars

Теперь кластеризируем df:

hclust.unsupervised <- hclust(dist(df))

и создаем его с помощью k = 8

cutree_hclust <- cutree(hclust.unsupervised, k = 8)

str(cutree_hclust) показывает, что это целочисленный вектор с номером кластера, присвоенным названию каждой строки в df.

Таким образом, лучше всего было бы добавить этот вектор в качестве дополнительного столбца.в исходный фрейм данных:

df$cluster <- cutree_hclust

Теперь вы можете разбить этот исходный фрейм данных на список фреймов вспомогательных данных по значению столбца кластера df $:

df.list <- split(df, df$cluster)

Iдумаю, что этот список фреймов данных содержит суб-фреймы данных для каждого кластера, который был тем, что вы хотели.

$`1`
               mpg cyl  disp  hp drat    wt  qsec vs am gear carb cluster
Mazda RX4     21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4       1
Mazda RX4 Wag 21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4       1
Datsun 710    22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1       1
Merc 240D     24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2       1
Merc 230      22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2       1
Merc 280      19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4       1
Merc 280C     17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4       1
Toyota Corona 21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1       1
Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2       1
Lotus Europa  30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2       1
Volvo 142E    21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2       1

$`2`
                mpg cyl disp  hp drat    wt  qsec vs am gear carb cluster
Hornet 4 Drive 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1       2
Valiant        18.1   6  225 105 2.76 3.460 20.22  1  0    3    1       2

$`3`
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb cluster
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2       3
Duster 360        14.3   8  360 245 3.21 3.570 15.84  0  0    3    4       3
Camaro Z28        13.3   8  350 245 3.73 3.840 15.41  0  0    3    4       3
Pontiac Firebird  19.2   8  400 175 3.08 3.845 17.05  0  0    3    2       3
Ford Pantera L    15.8   8  351 264 4.22 3.170 14.50  0  1    5    4       3

$`4`
                  mpg cyl  disp  hp drat    wt  qsec vs am gear carb cluster
Merc 450SE       16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3       4
Merc 450SL       17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3       4
Merc 450SLC      15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3       4
Dodge Challenger 15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2       4
AMC Javelin      15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2       4

$`5`
                     mpg cyl disp  hp drat    wt  qsec vs am gear carb cluster
Cadillac Fleetwood  10.4   8  472 205 2.93 5.250 17.98  0  0    3    4       5
Lincoln Continental 10.4   8  460 215 3.00 5.424 17.82  0  0    3    4       5
Chrysler Imperial   14.7   8  440 230 3.23 5.345 17.42  0  0    3    4       5

$`6`
                mpg cyl disp hp drat    wt  qsec vs am gear carb cluster
Fiat 128       32.4   4 78.7 66 4.08 2.200 19.47  1  1    4    1       6
Honda Civic    30.4   4 75.7 52 4.93 1.615 18.52  1  1    4    2       6
Toyota Corolla 33.9   4 71.1 65 4.22 1.835 19.90  1  1    4    1       6
Fiat X1-9      27.3   4 79.0 66 4.08 1.935 18.90  1  1    4    1       6

$`7`
              mpg cyl disp  hp drat   wt qsec vs am gear carb cluster
Ferrari Dino 19.7   6  145 175 3.62 2.77 15.5  0  1    5    6       7

$`8`
              mpg cyl disp  hp drat   wt qsec vs am gear carb cluster
Maserati Bora  15   8  301 335 3.54 3.57 14.6  0  1    5    8       8

Поскольку имя элементов df.list является номером кластера, вы можете получить фрейм данных длякластер 3, например, путем вызова

df.list[[3]]

, что дает:

                       mpg cyl disp  hp drat    wt  qsec vs am gear carb cluster
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2       3
Duster 360        14.3   8  360 245 3.21 3.570 15.84  0  0    3    4       3
Camaro Z28        13.3   8  350 245 3.73 3.840 15.41  0  0    3    4       3
Pontiac Firebird  19.2   8  400 175 3.08 3.845 17.05  0  0    3    2       3
Ford Pantera L    15.8   8  351 264 4.22 3.170 14.50  0  1    5    4       3
0 голосов
/ 12 мая 2018

Я думаю, что ваша цель - разделить кластеры на отдельные фреймы данных. Если это так, то может помочь следующее.

Используются данные USArrests. Только часть окончательного вывода отображается.

hc <- hclust(dist(USArrests), "ave")
k <- 8 
cutree_hclust <- cutree(hc, k = k)
df_list <- lapply(1 : k, function(x) USArrests[which(cutree_hclust == x), ])

df_list
# [[1]]
# Murder Assault UrbanPop Rape
# Alabama          13.2     236       58 21.2
# Alaska           10.0     263       48 44.5
# Delaware          5.9     238       72 15.8
# Illinois         10.4     249       83 24.0
# Louisiana        15.4     249       66 22.2
# Michigan         12.1     255       74 35.1
# Mississippi      16.1     259       44 17.1
# Nevada           12.2     252       81 46.0
# New York         11.1     254       86 26.1
# South Carolina   14.4     279       48 22.5
# 
# [[2]]
# Murder Assault UrbanPop Rape
# Arizona       8.1     294       80 31.0
# California    9.0     276       91 40.6
# Maryland     11.3     300       67 27.8
# New Mexico   11.4     285       70 32.1
...