Как удалить строки, содержащие 75% пропущенных значений и какую методику вменения использовать? - PullRequest
0 голосов
/ 04 февраля 2020

У меня есть фрейм данных 17631x15, и я хотел бы найти простой способ удаления строк, содержащих пропущенные значения на 75%. Я не уверен, как заполнить порог в функции:

out<- rowSums(is.na(df))

Мои данные показывают сильную суточную и сезонную изменчивость, и мне интересно, могут ли отсутствующие значения быть заменены на среднее значение геометрии c ?

1 Ответ

0 голосов
/ 04 февраля 2020

Что касается удаления строк, вы можете сделать:

set.seed(2)
df <- data.frame(matrix(sample(c(NA, 1), 1500, replace = T), ncol = 15))
df_sub <- df[rowSums(is.na(df))/ncol(df) <0.75, ]

Что касается пропущенных значений, основной пакет - mice. В этом пакете есть несколько вариантов, основанных на различных методах в зависимости от вашего типа данных. Кроме того, вы можете использовать пакет missForest для смешанных данных. Отметьте их для начала.

...