Функция мышей приближает отсутствующие значения. В вашем случае вы используете оператор «rf», что означает, что используется алгоритм случайного вменения леса. Поскольку я не могу воспроизвести ваш набор данных, я использую airquality
, который является встроенным набором данных R со значениями NA
. Их можно приблизить. Вы создаете своего рода модель прогнозирования с mice
. Фактически это объект mids
, который используется мышами для вмененных наборов данных ( документация ). Если вы хотите использовать эти вменения, вы можете вызвать complete
для создания заполненного фрейма данных.
library(mice)
df<-airquality
mice_mod <- mice(df, method='rf')
mice_output <- complete(mice_mod)
Когда вы сравните df
и mice_output
, вы увидите значения NA
в Ozone
и Solar
были заменены.
В вашем примере ваш лектор использует все имена, которых нет в списке имен. Так что он заранее фильтрует фрейм данных.
Если вам нужна дополнительная информация об алгоритме: относительно документации он описан в
Doove, LL, van Buuren, S. , Дюссельдорп, Э. (2014), Рекурсивное разделение для вменения отсутствующих данных при наличии эффектов взаимодействия. Вычислительная статистика \ и анализ данных, 72, 92-104.