Я пытаюсь вписать пропущенные значения в 6 наборах данных (связанных с информацией о здоровье человека), которые я должен объединить позже, чтобы предсказать, если у человека диабет или нет
Но я хотелзнаете, зависит ли вменение переменных в одном столбце от числа объектов, присутствующих в наборе данных?
Если у нас имеется более одного набора данных для создания модели:
Пример:
С наборами данных X1
, X2
, X3
, X4
, X5
с Xn
пропущенными значениями в них будет делаться вменение, например:
Вменение X1 = Impute(X1)
, Вменение X2 = Impute(X2)
, Вменение X3 = Impute(X3)
и т. Д.
Вменение X1 = Impute(X1)
, Вменение X2 = Impute(X2 + X1_imputed)
, Вменение X3 = Impute(X3+X2_imputed)
, ВменениеX4 = Impute(X4 X3_imputed)
, вменение X5 = Impute(X5+X4_imputed)
.
Будет ли точность отличаться в обоих случаях? Это даже имеет значение?