У меня есть набор данных:
df <- structure(list(gender = c("female", "male", NA, NA, "male", "male",
"male"), Division = c("South Atlantic", "East North Central",
"Pacific", "East North Central", "South Atlantic", "South Atlantic",
"Pacific"), Median = c(57036.6262, 39917, 94060.208, 89822.1538,
107683.9118, 56149.3217, 46237.265), first_name = c("Marilyn",
"Jeffery", "Yashvir", "Deyou", "John", "Jose", "Daniel")), row.names = c(NA,
-7L), class = c("tbl_df", "tbl", "data.frame"))
Мне нужно выполнить анализ, чтобы у меня не было значений NA
в переменной gender
.Другие столбцы слишком малы и не имеют известного прогнозирующего значения, так что вменение значений на самом деле невозможно.
Я могу выполнить анализ, полностью удалив неполные наблюдения - они составляют около 4% набора данных,но я хотел бы видеть результаты, случайным образом присваивая female
или male
пропущенным кейсам.
Кроме написания довольно уродливого кода для фильтрации только неполных кейсов, деления на два и замены NA
s с female
или male
в каждой половине, я задавался вопросом, был ли элегантный способ случайным или пропорциональным назначением значений в NA
s?