Question

У меня есть фрейм данных, который состоит из 3 столбцов, каждый из которых представляет группу, к которой принадлежат респонденты. Респонденты принадлежат к одной из этих групп, и им поручено представить свои числовые ответы в столбце группы, к которой они принадлежали. Следовательно, для данной строки 2 других столбца будут пустыми.

Мне нужно создать столбец, у которого есть оценка, независимо от того, к какой группе он принадлежал. На Stackoverflow есть такой же вопрос, как у меня, но это для Python (см. здесь )

Вот как будут выглядеть данные и что я сделал:

library(dplyr)

df <- data.frame(grp_A = c(13, NA, NA, NA, NA, 20, NA),
             grp_B = c(NA, 59, 66, NA, NA, NA, NA),
             grp_C = c(NA, NA, NA, 23, 42, NA, NA))

df$value <- apply(select(df, grp_A, grp_B, grp_C), 1,
              function(x) x[!is.na(x)])

Поскольку в некоторых строках отсутствуют данные, R неправильно преобразует этот новый столбец в список. Я попытался преобразовать его обратно во фрейм данных, используя as.data.frame, но это не сработало.

Пожалуйста, посоветуйте, как предотвратить превращение вновь созданного столбца в список.

JdeMello · Answer 1 · 17 января 2019

Как насчет использования Reduce с dplyr::coalesce?

library(dplyr)

df <- data.frame(grp_A = c(13, NA, NA, NA, NA, 20, NA),
                 grp_B = c(NA, 59, 66, NA, NA, NA, NA),
                 grp_C = c(NA, NA, NA, 23, 42, NA, NA))

mutate(df, value = Reduce(coalesce, df))

Результат:

  grp_A grp_B grp_C value
1    13    NA    NA    13
2    NA    59    NA    59
3    NA    66    NA    66
4    NA    NA    23    23
5    NA    NA    42    42
6    20    NA    NA    20
7    NA    NA    NA    NA

Другой вариант - использовать rowSums:

df$value <- rowSums(df, na.rm = T)

df[df$value == 0, ] <- NA

Кроме того, с точки зрения производительности, базовое решение Reduce представляется наиболее эффективным:

microbenchmark::microbenchmark(
  Reduce = Reduce(coalesce, df), 
  purrr = purrr::reduce(df, coalesce),
  rowMeans = rowMeans(df,na.rm=T), 
  rowSums = rowSums(df, na.rm = T), 
  cbind = df[cbind(1:nrow(df), max.col(!is.na(df)))],
  times = 1000
)

Unit: microseconds
     expr     min       lq     mean   median       uq       max neval cld
   Reduce  83.507 107.2095 145.4134 121.4320 137.8410 12190.845  1000  a 
    purrr 205.667 269.1175 357.5908 304.8540 342.4135 24316.051  1000   b
 rowMeans 129.089 159.3555 196.1438 174.4890 194.9095  5481.523  1000  a 
  rowSums 129.454 157.1680 197.2731 173.5775 196.0035  7685.874  1000  a 
    cbind 267.294 331.8385 408.3179 368.4860 410.2400  4533.050  1000   b

WeNYoBen · Answer 2 · 17 января 2019

База R rowMeans

df$new=rowMeans(df,na.rm=T)
df
  grp_A grp_B grp_C new
1    13    NA    NA  13
2    NA    59    NA  59
3    NA    66    NA  66
4    NA    NA    23  23
5    NA    NA    42  42
6    20    NA    NA  20
7    NA    NA    NA NaN

Ronak Shah · Answer 3 · 17 января 2019

Не нужно использовать apply, поскольку для каждой строки у вас будет только одно значение, отличное от NA, мы можем получить это значение, используя max.col, не беспокоясь о связях.

df$value <- df[cbind(1:nrow(df), max.col(!is.na(df)))]

df
#  grp_A grp_B grp_C value
#1    13    NA    NA    13
#2    NA    59    NA    59
#3    NA    66    NA    66
#4    NA    NA    23    23
#5    NA    NA    42    42
#6    20    NA    NA    20
#7    NA    NA    NA    NA

max.col дает нам индекс номера столбца, который имеет максимальное значение для каждой строки, и, поскольку мы заключаем его в !is.na, он даст нам индекс TRUE.

max.col(!is.na(df))
#[1] 1 2 2 3 3 1 2

Причина, по которой ваш apply не сработал, заключается в том, что в вашем последнем ряду было все NA s и x[!is.na(x)] не удалось выполнить. Если вы удалите эту строку и запустите свою функцию, она будет работать

apply(df[-7, ], 1,function(x) x[!is.na(x)])
# 1  2  3  4  5  6 
#13 59 66 23 42 20

Мы также можем узнать значение max для каждой строки, удалив NA, но это вернет -Inf для строк со всеми NA s

apply(df, 1,max, na.rm = TRUE)
#[1]   13   59   66   23   42   20 -Inf

Создайте новый столбец, используя непустое значение из каждой строки, используя команду apply

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создайте новый столбец, используя непустое значение из каждой строки, используя команду apply

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы