Question

У меня есть данные из ответов на опросы (строки = участники, столбцы = ответы на вопросы).Участники ответили бы на 50 вопросов по 5-балльной шкале Лайкерта.Я хотел бы удалить участников, которые ответили на 5 вопросов из 50, поскольку они имеют нулевую дисперсию и могут повлиять на мои результаты.

Я видел функцию nearZeroVar (), но мне было интересно, есть ли способ сделать это?это в базе R?

Большое спасибо,

R

Moody_Mudskipper · Answer 1 · 24 апреля 2018

Кража данных @ AshOfFire, с небольшими изменениями, поскольку вы говорите, что у вас есть только ответы в столбцах, а не участники:

survey <- data.frame(q1 = c(1,2,5,5,5,1,2,3,4,2), 
                     q2 = c(1,2,5,5,5,1,2,3,4,3), 
                     q3 = c(3,2,5,4,5,5,2,3,4,5))

survey[!apply(survey==survey[[1]],1,all),]

#    q1 q2 q3
# 1   1  1  3
# 4   5  5  4
# 6   1  1  5
# 10  2  3  5

Тест на равенство строит data.frame, заполненный логическими значениями, затем с помощью apply мы сохраняем строки, которые не всегда TRUE.

clemens · Answer 2 · 24 апреля 2018

Если у вас был этот фрейм данных:

df <- data.frame(col1 = rep(1, 10),
                 col2 = 1:10,
                 col3 = rep(1:2, 5))

Вы можете рассчитать дисперсию каждого столбца и выбрать только те столбцы, где дисперсия не равна 0 или больше или равна определенному порогу, близкому к тому, что будет делать nearZeroVar():

df[, sapply(df, var) != 0]
df[, sapply(df, var) >= 0.3]

Если вы хотите исключить строки, вы можете сделать что-то похожее, но вместо этого переберите строки и затем подмножество:

df[apply(df, 1, var) != 0, ]
df[apply(df, 1, var) >= 0.3, ]

sindri_baldur · Answer 3 · 24 апреля 2018

# Dummy data:
df <- data.frame(
  matrix(
    sample(1:5, 100000, replace =TRUE), 
    ncol = 5
  )
)
names(df) <- paste0("likert", 1:5)
df$id <- 1:nrow(df)
head(df)
  likert1 likert2 likert3 likert4 likert5 id
1       1       2       4       4       5  1
2       5       4       2       2       1  2
3       2       1       2       1       5  3
4       5       1       3       3       2  4
5       4       3       3       5       1  5
6       1       3       3       2       3  6
dim(df)
[1] 20000     6

# Clean out rows where all likert values are 5
df <- df[rowSums(df[grepl("likert", names(df))] == 5) != 5, ]
nrow(df)
[1] 19995

AshOfFire · Answer 4 · 24 апреля 2018

Предположим, у вас есть такие данные.

survey <- data.frame(participants = c(1:10),
                     q1 = c(1,2,5,5,5,1,2,3,4,2), 
                     q2 = c(1,2,5,5,5,1,2,3,4,3), 
                     q3 = c(3,2,5,4,5,5,2,3,4,5))

Вы можете сделать следующее.

idx <- which(apply(survey[,-1], 1, function(x) all(x == 5)) == T)
survey[-idx,]

Это удалит строки, где все значения равны 5.

Удалить строки с нулевой дисперсией в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить строки с нулевой дисперсией в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы