Множественное вменение в R (мыши) - Как я могу проверить выполнение вменения? - PullRequest
1 голос
/ 13 марта 2019

Я работаю с набором данных из 171 наблюдений 55 переменных с 35 переменными, имеющими NA, которые я хочу вычислить с помощью функции мышей:

imp_Data <- mice(Data,m=5,maxit=50,meth='pmm',seed=500)

 imp_Data$imp

Теперь, имея 5 запусков вменения, я не знаю, как я могу проверить и решить, какое из 5 вменений лучше всего выбрать для моего набора данных.

Проверяя эту тему, я снова и снова находил сценарии, используя функцию with() с линейной моделью, а затем функцию pool():

fit <- with(imp_Data, lm(a ~ b + c + d + e))

 combine <- pool(fit)

Но я не понимал, для чего нужна эта линейная модель и как она помогает мне найти лучший результат вменения.

Может кто-нибудь, пожалуйста, подскажите мне простым способом, как я могу провести тест 5 вменений / как я могу решить, какой из них выбрать?

Спасибо за помощь!

1 Ответ

0 голосов
/ 15 марта 2019

мышей - это пакет множественного вменения . Множественное вменение само по себе не является алгоритмом вменения - это скорее концепция вменения данных, а также учет неопределенности, которая возникает вместе с вменением.

Если вам нужен только один вмененный набор данных, вы можете использовать пакеты с одним вменением, такие как VIM (например, функция irmi () или кНН ( ) ). Также пакеты imputeR и missForest хороши для однократного вменения. Вы выводите вам один единственный вмененный набор данных.

Если вы все еще хотите использовать мышей и просто хотите иметь 1 вмененный набор данных в конце, вы можете взять любой из пяти наборов данных или усреднить их между пятью наборами данных.

Существует более глубокая причина, почему множественное вменение создает несколько вмененных наборов данных. Идея, лежащая в основе этого, состоит в том, что само вменение вводит смещение Вы не можете действительно утверждать, что значение АН, которое вы вменяете, например, ровно 5. Более правильный ответ с байесовской точки зрения будет, вероятно, пропущенное значение находится где-то между 3 и 7. Поэтому, если вы просто установите его на 5, вы введете смещение.

Множественное вменение решает эту проблему путем выборки из различных распределений вероятностей, и в итоге получается несколько вмененных наборов данных, которые в основном являются всеми возможными решениями.

Основная идея множественного вменения теперь состоит в том, чтобы взять эти пять наборов данных, обработать каждый как возможное решение, и вы выполняете свой анализ для каждого из них! После этого результаты вашего анализа (а не вмененные наборы данных!) Будут объединены.

Таким образом, части with () и pooling () не имеют ничего общего с созданием одного набора данных, они необходимы для объединения пяти результатов анализа вместе.

Линейная модель - это одна из форм анализа, которую многие люди применяют к данным. (они хотят проанализировать отношения некоторых переменных к переменной ответа). Чтобы получить объективные результаты, этот анализ проводится 5 раз, а затем результаты объединяются.

Так что, если вы все равно не хотите использовать линейную модель, вам это не нужно. Потому что эта часть связана с анализом данных, а не с вменением.

...