Мыши в R - как я могу понять, что делает эта команда? - PullRequest
1 голос
/ 18 июня 2020
mice_mod <-
  mice(titanicData[, !names(titanicData) %in%
                     c('PassengerId','Name','Ticket','Cabin','Survived')], 
       method='rf')
mice_output <- complete(mice_mod)

Я новичок в R, и вчера у нас была лекция в колледже. Что делает эта команда? Я прочитал онлайн-документацию и без особого удовольствия разбил команду на серию выводов.

1 Ответ

1 голос
/ 18 июня 2020

Функция мышей приближает отсутствующие значения. В вашем случае вы используете оператор «rf», что означает, что используется алгоритм случайного вменения леса. Поскольку я не могу воспроизвести ваш набор данных, я использую airquality, который является встроенным набором данных R со значениями NA. Их можно приблизить. Вы создаете своего рода модель прогнозирования с mice. Фактически это объект mids, который используется мышами для вмененных наборов данных ( документация ). Если вы хотите использовать эти вменения, вы можете вызвать complete для создания заполненного фрейма данных.

library(mice)
df<-airquality
mice_mod <- mice(df, method='rf')
mice_output <- complete(mice_mod)

Когда вы сравните df и mice_output, вы увидите значения NA в Ozone и Solar были заменены.

В вашем примере ваш лектор использует все имена, которых нет в списке имен. Так что он заранее фильтрует фрейм данных.


Если вам нужна дополнительная информация об алгоритме: относительно документации он описан в

Doove, LL, van Buuren, S. , Дюссельдорп, Э. (2014), Рекурсивное разделение для вменения отсутствующих данных при наличии эффектов взаимодействия. Вычислительная статистика \ и анализ данных, 72, 92-104.

...