Я хочу сделать перекрестную проверку для случайной лесной регрессии, но на самом деле я не уверен в том, как.Это мой код до сих пор:
library(rfUtilities)
# Read Data
base <- readxl::read_xlsx(c:\ File)
# Pull columns to use in the model
base_cl <- select(base,
Id = PLA_WTWPartyID,
Ind =Global_reference_Industry,
Num__Ind =NumInd,
Retention = Retention_AL,
Limit = Limit_AL,
Exposure = Exposure_AL,
#RL_Exposure = Risk_level_Exposure,
LPremium = Liab_Premuim_AL,
Haz_Gp = HazardGp_AL,
LPick =Loss_Pick_AL,
#RL_LPick = Level_Loss_Pick,
Rate = Rate_AL,
lob = AL_R,
Date = AL_R_Date)
#Clean Data
base_cl$_Ind[is.na(base_cl$_Ind)] <- "Other"
base_cl$Limit[base_cl$Limit == "0"] <- NA
base_cl$Exposure[base_cl$Exposure == "0"] <- NA
#Remove Rate outliers
base_cl$Rate <- remove_outliers(base_cl$Rate)
base_cl <- base_cl %>%
filter(lob == "1") %>%
filter(Date == "1") %>%
drop_na(Limit)%>%
drop_na(Exposure) %>%
drop_na(LPremium) %>%
drop_na(Retention) %>%
drop_na(Rate)
output.forest <- randomForest(Formula_3, base_cl, ntree = 400, keep.forest = T,
importance = T, localImp = T, mtry = 6)
print(output.forest)
rf.regression.fit(output.forest)
varImpPlot(output.forest, sort = TRUE)
RF_CV_2 <- rfcv(trainx = base_cl[, 4:9], trainy = base_cl[[10]], p = .2,
normalize = T,bootstrap = T, trace = T,step = 3, method = "cv")
и в этом последнем у меня есть ошибка
RF <- rf.crossValidation(output.forest, base_cl, p = 0.1, n = 99, seed = NULL,
normalize = FALSE, bootstrap = FALSE, trace = FALSE, ntree = 400)
Ошибка в sample.int (длина (x), размер, заменить, prob): объект 'sample.sizes' не найден
... и я не знаю, как я могу это исправить для запуска.Можете ли вы помочь мне построить функцию или исправить мой код для выполнения перекрестной проверки, возможно, с k = 5 или 10.