У меня есть data.frame с категориальной переменной ответа (1,0) для респондента / не респондента (для маркетинговой кампании), соответственно.Приложение.95% наблюдений относятся к классу 0 (не отвечающие.)Пока что я сделал следующее:
TRG_PCT=0.6
nr=nrow(df5)
trnIndex = sample(1:nr, size =round(TRG_PCT*nr),replace=FALSE)
cTrn=df5[trnIndex,]
cTst = df5[-trnIndex,]
Trn_pos <- subset(cTrn, subset = cTrn$TARGET_B==1)
Trn_neg <- subset(cTrn, subset = cTrn$TARGET_B==0)
На данный момент я разделил свои данные для обучения и тестирования.Кроме того, я разделил свои тренировочные данные на (0) и (1) наблюдения, Trn_pos и Trn_neg, соответственно.
Где я застрял, это выборка Trn_pos и Trn_neg, так что оба одинаково представлены в новомdata.frame, 50% каждый.