условная маркировка в строках - PullRequest
2 голосов
/ 19 апреля 2019

Я хотел бы пометить строки на основе условия в других строках.

В основном, я ищу, если строка - NA, тогда найдите строку с не-NA и используйте ее sd_value столбец, чтобы решить, маркировать ли строку NA ее меткой, иначе пометить ее NA.Я надеюсь, что это объяснение простое.

Итак, допустим, у нас есть

df <- data.frame(value = c(0.5,1,0.6,1.2), sd_value=c(0.1,0.5,0.2,0.8),
             label = c("good", "bad",NA,NA))


> df
  value sd_value label
1   0.5      0.1  good
2   1.0      0.1   bad
3   0.6      0.5    NA
4   1.2      0.8    NA

для маркировки, например, строки 3, мне нужно проверить это значение строки и затем проверить, находятся ли они в или нетмежду 'good' или 'bad' значением ± 2 * sd_value.Если это так, назовите их good или bad.

ожидаемый результат

> df
  value sd_value label
1   0.5      0.1  good
2   1.0      0.1   bad
3   0.6      0.5  good   #because 0.6 is ±2*sd_value of 1st row value 
4   1.2      0.8   bad   #because 1.2 is ±2*sd_value of 2nd row value

, чтобы обобщить вопрос. Допустим, у нас есть такие данные

df <- data.frame(value = c(0.5, 1,8, 1.2, 2.4,0.4,6,2,5.7, 9),   
                 sd_value=c(0.1, 0.1,1, 0.2,0.2,0.1,0.4,0.2,0.1,0.1),
                 label = c("good",NA,"beautiful","bad", NA,NA,"ugly","dirty",NA,NA))


> df
   value sd_value     label
1    0.5      0.1      good
2    1.0      0.1      <NA>
3    8.0      1.0 beautiful
4    1.2      0.2       bad
5    2.4      0.2      <NA>
6    0.4      0.1      <NA>
7    6.0      0.4      ugly
8    2.0      0.2     dirty
9    5.7      0.1      <NA>
10   9.0      0.1      <NA>

Исходя из условий, ожидаемый результат должен выглядеть следующим образом:

> df
   value sd_value     label
1    0.5      0.1      good #original label
2    1.0      0.1      bad
3    8.0      1.0      beautiful #original label
4    1.2      0.2      bad
5    2.4      0.2      dirty
6    0.4      0.1      good
7    6.0      0.4      ugly #original label
8    2.0      0.2      dirty #original label
9    5.7      0.1      ugly 
10   9.0      0.1      beautiful 

- эти измененные строки NA основаны на ±2*sd_value значения строк не-NA.

1 Ответ

2 голосов
/ 19 апреля 2019

Мы можем установить значения NA строки и проверить, что с помощью значения «value», «sd», соответствующего метке «good», изменить логический вектор («i2») на «good / bad» либо с числовым индексированием или использованием ifelse и присвоение вывода обратно столбцу на основе индекса ('i1')

i1 <- is.na(df$label)
i2 <- df$value[i1] < abs(df$value[1] + 2 * df$sd_value[1])
df$label[i1] <- c("bad", "good")[(i2 + 1)]

Может быть упакован в функцию

f1 <- function(data, lblCol, valCol, sdCol){
     i1 <- is.na(df[[lblCol]])
     gd <- which(df[[lblCol]] == "good")
     i2 <- df[[valCol]][i1] < abs(df[[valCol]][gd] + 2 * df[[sdCol]][gd])
     df[[lblCol]][i1] <- c("bad", "good")[(i2 + 1)]
     df
  }

f1(df, "label", "value", "sd_value")
#  value sd_value label
#1   0.5      0.1  good
#2   1.0      0.5   bad
#3   0.6      0.2  good
#4   1.2      0.8   bad

Обновление

С обновленным набором данных мы извлекаем строки, в которых «метка» не является NA, arrange - в порядке возрастания и используем ее в cut, чтобы вырезать «значение», чтобы получить правильную «метку»

library(dplyr) 
df1 <- df %>% 
      filter(!is.na(label)) %>% 
      transmute(label, v1 = value + 2 * sd_value) %>%
      arrange(v1)
df %>% 
    mutate(label = cut(value, breaks = c(-Inf, df1$v1), labels = df1$label)) 
#   value sd_value     label
#1    0.5      0.1      good
#2    1.0      0.1       bad
#3    8.0      1.0 beautiful
#4    1.2      0.2       bad
#5    2.4      0.2     dirty
#6    0.4      0.1      good
#7    6.0      0.4      ugly
#8    2.0      0.2     dirty
#9    5.7      0.1      ugly
#10   9.0      0.1 beautiful

Или та же логика в base R

df1 <- transform(na.omit(df), v1 = value + 2 * sd_value)[3:4]
df$label <- cut(df$value,  breaks = c(-Inf, df1$v1), labels = df1$label)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...