Множественное вложение в r с использованием «missForest» по категориальным переменным - PullRequest
0 голосов
/ 23 января 2019

У меня есть набор данных опроса с NA в нескольких столбцах.Поэтому я решил выполнить многократное вменение, используя пакет «missForest» для вменения пропущенных значений.Это не было проблемой, однако после проверки моих данных я заметил, что многие из вмененных значений являются числовыми с десятичными значениями в столбцах, которые ранее были факторами.

Я предполагаю, что missForest требует, чтобы столбцы были числовыми (для него требуется data.matrix для x), чтобы он мог выполнить вменение.

NRMSE достаточно хорош, и средствастолбцы с вмененными значениями аналогичны столбцам с NA.

Я планирую использовать набор данных с вмененными значениями для многоуровневой линейной регрессии и в любом случае преобразовал бы столбцы фактора в числовые значения.

Должны ли эти вмененные значения, которые являются числовыми с десятичными знаками, представлять проблему?

finalmatrix <- data.matrix(final)
set.seed(666)
impforest <- missForest(finalmatrix, variablewise = TRUE, parallelize = 
"forests")

1 Ответ

0 голосов
/ 25 января 2019

Я не знаю ваших данных или вашего кода, но MissForest определенно умеет работать с данными смешанного типа.(и не конвертирует их автоматически)

Это пример из руководства missForest :

## Nonparametric missing value imputation on mixed-type data:
## Take a look at iris definitely has a variable that is a factor 
library(missForest)
data(iris)
summary(iris)

## The data contains four continuous and one categorical variable.
## Artificially produce missing values using the 'prodNA' function:
set.seed(81)
iris.mis <- prodNA(iris, noNA = 0.2)
summary(iris.mis)

## Impute missing values providing the complete matrix for
## illustration. Use 'verbose' to see what happens between iterations:
iris.imp <- missForest(iris.mis, xtrue = iris, verbose = TRUE)


## Here are the final results
iris.imp

##As can be seen here it still has the factor column
str(iris.imp$ximp)
...