Как я могу узнать, сколько образцов с потерей> медиана потери; а сколько с потерями используя иерархическую кластеризацию в R - PullRequest
0 голосов
/ 11 апреля 2020

Как я могу узнать, сколько образцов с потерей> медиана потери; и сколько с потерей, используя иерархическую кластеризацию в R. Я использую набор данных Серьезность заявки Allstate, я думаю, что атрибуты Numberri c нормализованы, они имеют значения от 0 до 1

Это мой код:

claims<-read.csv("train.csv")
idx<-sample(1:dim(claims)[1],10000) #10000 random samples
claimsSample<-claims[idx,118:131] #retrieve the numeric features
distances<-dist(claimsSample,method="euclidean")
clusterClaims<-hclust(distances, method = "ward.D")
plot(clusterClaims)
clusterGroups<- cutree(clusterClaims,k=9)

Итак, как мне найти медиану и образцы ???

1 Ответ

1 голос
/ 11 апреля 2020

Вы должны предоставить примерный набор данных или ориентировать других пользователей SO на интересующий набор данных. «потеря» может означать много вещей ...

Итак, мы можем попробовать что-то вроде этого:

#claims = read.csv("https://raw.githubusercontent.com/Architectshwet/Allstate-Claims-Severity-Data/master/Datasets/train.csv")
set.seed(111)
idx<-sample(nrow(claims),10000) 
claimsSample<-claims[idx,118:131] 
distances<-dist(claimsSample,method="euclidean")
clusterClaims<-hclust(distances, method = "ward.D")
clusterGroups<- cutree(clusterClaims,k=9)

Метки clusterGroups имеют тот же порядок, что и ваши строки, поэтому ниже я получаю вектор (ИСТИНА / ЛОЖЬ), который показывает, превышает ли наблюдение в вашем утверждении, чем медиана в утверждении, и формирует его в соответствии с группой:

results = table(clusterGroups,claims$loss[idx] > median(claims$loss[idx]))

clusterGroups FALSE TRUE
            1   816  621
            2   691  687
            3   405  382
            4   886 1055
            5   493  499
            6   249  256
            7   462  481
            8   530  502
            9   468  517
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...