У меня есть набор данных с n = 7896 и 39 переменными. 9 - непрерывные (целые), а 30 - двоичные факторы. Из общего количества точек данных 307944 отсутствуют 79493. Я пытаюсь вменять недостающие данные с помощью missForest, но я не уверен, сколько времени потребуется для запуска.
Примерно 30 минут прошло, и оно все еще находится на первой итерации. Я запускаю это на Lenovo Thinkpad X220t. Код ниже.
> data=read.csv(file.choose())
> data$ï..Gen = as.factor(data$ï..Gen)
> binary <- c(3:8)
> data[,binary] <- lapply(data[,binary], factor)
> binarya <- c(16:39)
> data[,binarya] <- lapply(data[,binarya], factor)
> View(data)
> set.seed(1337)
> data.mis <- prodNA(data, noNA=.1)
> missForest(data.mis, maxiter= 10, ntree=2001, variablewise=TRUE,decreasing=FALSE,verbose=TRUE,mtry=floor(sqrt(ncol(data.mis))),replace=TRUE, xtrue= data.mis)
missForest iteration 1 in progress...
Должен ли я снизить ntree или mtry, возможно? Или моя анна слишком большая или маленькая? Является ли номер семян проблемой? Я никогда раньше не работал с вменением данных, поэтому я не уверен, сколько времени это займет или мои параметры даже разумны. Значение mtry является значением по умолчанию.