Как извлечь значение узла по умолчанию из RandomForest в R - PullRequest
0 голосов
/ 02 декабря 2018

Я знаю, как изменить значение nodesize (минимальное количество строк в терминальном узле) в RandomForest.Тем не менее, я хотел бы знать, учитывая RandomForest модель, каково значение nodesize.

require(party)
require (data.table)
require (e1071)
require (randomForest)
dat1 <- fread('https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data',stringsAsFactors=T)

## split data to train and test
set.seed(123)
dat1 <- subset(dat1, !is.na(V1))
smp_size<-0.8*nrow(dat1)
train_ind <- sample(seq_len(nrow(dat1)), size = smp_size)
train <- dat1[train_ind, ]
test <- dat1[-train_ind, ]
rf1 <- randomForest(V1 ~ ., data = train,keep.inbag = TRUE)
rf2 <- randomForest(V1 ~ ., data = train, ntree = 50,keep.inbag = TRUE)

1 Ответ

0 голосов
/ 02 декабря 2018

Бывает, что randomForest не возвращает параметр размера узла.Однако существует только три возможных значения: либо оно указано пользователем, либо установлено if (!is.null(y) && !is.factor(y)) 5 else 1 (1 для классификации и 5 для регрессии).Таким образом, мы имеем

getNodesize <- function(x) {
  look <- pmatch(names(x$call), "nodesize")
  if(any(!is.na(look)))
    x$call[!is.na(look)][[1]]
  else if (!is.null(x$y) && !is.factor(x$y))
    5
  else
    1
}

rf1 <- randomForest(V1 ~ ., data = train)
getNodesize(rf1)
# [1] 1
rf1 <- randomForest(V1 ~ ., data = train, nodesi = 3)
getNodesize(rf1)
# [1] 3
...