MICE количество множественно вмененных наборов данных. - PullRequest
0 голосов
/ 15 мая 2018

У меня есть несколько вопросов относительно полезности количества многократно вмененных наборов данных "m". Я понял, что мыши будут повторять процесс вменения пропущенных значений в наборе данных m раз.

1) Рассматривают ли мыши вменение предыдущего шага и, таким образом, каждый шаг приближается к возможной конвергенции или каждый шаг полностью независим друг от друга?

2) Если каждый шаг не зависит друг от друга, какой смысл иметь несколько вмененных наборов данных для целей вменения?

В статье, объясняющей мышей, есть схема, показывающая несколько шагов вменения enter image description here

Я полагаю, что чем больше у нас вмененных данных, тем лучше, когда мы хотим объединить результаты, однако шаг результатов анализа подразумевает создание прогностической модели, которая может быть:

#build predictive model
fit <- with(data = imp, lm(y ~ x + z))

Что произойдет, если в моем наборе данных у меня нет прогнозирующего столбца или меток? Действительно, мой набор данных содержит измерения геномики, и все они независимы. Как я могу объединить результаты или объединить m вмененных наборов данных, не пройдя этап прогнозирования?

Best

Babas

1 Ответ

0 голосов
/ 11 ноября 2018

Хорошо, что у вас есть эти вопросы.Многочисленные вменения очень часто неправильно понимают.Это скорее целая концепция о том, как выполнять анализ с отсутствующими данными, а не алгоритм, который просто дает вам один набор данных без пропущенных значений.

1) Рассматривают ли мыши вменение предыдущего шага и, таким образом, каждый шаг приближается квозможная конвергенция или каждый шаг полностью независимы друг от друга?

Нет, конвергенции нет.Ни один из m вмененных наборов данных не имеет «лучших» вмененных значений.

2) Если каждый шаг не зависит друг от друга, какой смысл иметь несколько вмененных наборов данных для целей вменения?

Все дело в том, чтобы смоделировать неопределенность процесса вменения.Если значение NA заменяется в одном вмененном наборе данных, например, только 5, это никогда не является полной правдой ... более точное утверждение может быть примерно таким: Значение, вероятно, находится где-то между 4 и 6 ....

Эта статья Рубина интересна для чтения: https://www.jstor.org/stable/2291635

...