Я тренирую модель randomForest с целью сохранения ее для прогнозирования (она будет загружена и использована во внешнем контексте). Я бы хотел, чтобы эта модель была наименьшей из возможных.
Я прочитал, что существует ряд опций и пакетов для уменьшения объема памяти модели.
Тем не менее, я не понимаю, почему размер тренировочного комплекта привязан к размеру модели? В конце концов, когда есть коэффициенты леса, зачем сохранять исходный набор данных?
df <- iris
model <- randomForest::randomForest(Species ~ ., data = df,
localImp = FALSE,
importance = FALSE,
keep.forest = TRUE,
keep.inbag = FALSE,
proximity=FALSE,
ntree = 25)
object.size(model)/1000
#> 73.2 bytes
df <- df[sample(nrow(df), 50), ]
model <- randomForest::randomForest(Species ~ ., data = df,
localImp = FALSE,
importance = FALSE,
keep.forest = TRUE,
keep.inbag = FALSE,
proximity=FALSE,
ntree = 25)
object.size(model)/1000
#> 43 bytes
Создано в 2019-05-21 с помощью представительного пакета (v0.2.1)
Я попробовал упомянутые выше приемы, чтобы уменьшить размер, но их эффект незначителен по сравнению с ролью размера тренировочного набора. Есть ли способ удалить эту информацию?