Сколько времени должно занять MissForest для вменения данных для моего набора данных (n = 7896) - PullRequest
0 голосов
/ 25 июня 2019

У меня есть набор данных с n = 7896 и 39 переменными. 9 - непрерывные (целые), а 30 - двоичные факторы. Из общего количества точек данных 307944 отсутствуют 79493. Я пытаюсь вменять недостающие данные с помощью missForest, но я не уверен, сколько времени потребуется для запуска.

Примерно 30 минут прошло, и оно все еще находится на первой итерации. Я запускаю это на Lenovo Thinkpad X220t. Код ниже.

> data=read.csv(file.choose())
> data$ï..Gen = as.factor(data$ï..Gen)
> binary <- c(3:8)
> data[,binary] <- lapply(data[,binary], factor)
> binarya <- c(16:39)
> data[,binarya] <- lapply(data[,binarya], factor)
> View(data)
> set.seed(1337)
> data.mis <- prodNA(data, noNA=.1)
> missForest(data.mis, maxiter= 10, ntree=2001, variablewise=TRUE,decreasing=FALSE,verbose=TRUE,mtry=floor(sqrt(ncol(data.mis))),replace=TRUE, xtrue= data.mis)
  missForest iteration 1 in progress...

Должен ли я снизить ntree или mtry, возможно? Или моя анна слишком большая или маленькая? Является ли номер семян проблемой? Я никогда раньше не работал с вменением данных, поэтому я не уверен, сколько времени это займет или мои параметры даже разумны. Значение mtry является значением по умолчанию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...