Мутируйте несколько столбцов с условиями, используя dplyr - PullRequest
0 голосов
/ 05 сентября 2018

У меня большой набор данных, для которого я хочу создать 50 новых переменных, значения которых зависят от значений в предыдущих столбцах, и имена переменных отражают этот факт. Чтобы сделать его более понятным, вот пример:

df <- tibble("a" = runif(10,1990,2000),
         "event" = 1995) %>%
      mutate("relative_event" = a - event)

Теперь с этим набором данных я хотел бы создать фиктивные переменные, которые кодируют, если конкретное наблюдение происходит за один год до события, за 2 года и т. Д., А также вперед. Один неуклюжий способ сделать это (который работает):

df <- df %>%
  mutate("event_b1" = ifelse( (relative_event<=0) & (relative_event > -1),1,0)) %>%
  mutate("event_b2" = ifelse( (relative_event<=-1) & (relative_event > -2),1,0)) %>% #etc with more lagx
  mutate("event_f1" = ifelse( (relative_event>0) & (relative_event < 1),1,0)) %>%
  mutate("event_f2" = ifelse( (relative_event>1) & (relative_event < 2 ),1,0)) #etc with more forward

, где b1 - «на один год раньше», а f2 - «на 2 года вперед». Результат выглядит так:

 A tibble: 10 x 7
       a event relative_event event_b1 event_b2 event_f1 event_f2
    <dbl> <dbl>          <dbl>    <dbl>    <dbl>    <dbl>    <dbl>
  1 1993.  1995         -1.94         0        1        0        0
  2 1992.  1995         -2.59         0        0        0        0
  3 2000.  1995          4.75         0        0        0        0
  4 1998.  1995          3.25         0        0        0        0
  5 1991.  1995         -3.88         0        0        0        0
  6 1992.  1995         -3.02         0        0        0        0
  7 1996.  1995          1.08         0        0        0        1
  8 1994.  1995         -1.04         0        1        0        0
  9 1993.  1995         -2.22         0        0        0        0
 10 1995.  1995         -0.302        1        0        0        0

Поскольку у меня есть более 50 столбцов для создания, я хотел бы знать, как сделать это автоматически, чтобы мне не пришлось копировать-вставлять 49 раз и вручную изменять условие и имя переменной. Я потратил время на просмотр SO в этой ветке , в этой one , а также в CV, но я все еще не в курсе. Я попробовал следующий код, который не работает:

for (i in 0:10) {

  if (i<0) {

    event_bi  <- paste0("event_b",i)
    df <- df %>%
      mutate(get(event_bi) = ifelse((relative_event<=-(i-1)) & (relative_event>-i),1,0)) 

  } 
}

В идеале я хотел бы узнать, как это сделать с помощью dplyr, но если есть очевидное решение Base R, я тоже с удовольствием его изучу.

Спасибо!

Ответы [ 2 ]

0 голосов
/ 05 сентября 2018

Хотя я предпочитаю решение со всеми переменными в одном столбце, как предложено @Patrick (хотя я бы использовал что-то вроде %>% mutate(new_col = case_when(etc...)), здесь есть способ с for-loop

# I changed your data a tiny bit
df <- tibble("a" = sample(1990:2000, size = 10),  # better to use 'sample' then 'runif' !
             "event" = 1995) %>% mutate("relative_event" = a - event)

Теперь актуальная работа

for (i in min(df$relative_event):max(df$relative_event)) {

# the indexing value is your difference in years. So you have to run the index from the lowest difference to the highest. 

if( i < 0 ) {
  df[[paste0('event_b', abs(i))]] <- ifelse(i == df$relative_event, 1, 0)
  } 
  if( i >= 0 ) {
    df[[paste0('event_f', abs(i))]] <- ifelse(i == df$relative_event, 1, 0)
    df
  } 
}  

# A tibble: 10 x 14
       a event relative_event event_b5 event_b4 event_b3 event_b2 event_b1
   <int> <dbl>          <dbl>    <dbl>    <dbl>    <dbl>    <dbl>    <dbl>
 1  1990  1995             -5        1        0        0        0        0
 2  1992  1995             -3        0        0        1        0        0
 3  1991  1995             -4        0        1        0        0        0
 4  2000  1995              5        0        0        0        0        0
 5  1998  1995              3        0        0        0        0        0
 6  1993  1995             -2        0        0        0        1        0
 7  1996  1995              1        0        0        0        0        0
 8  1997  1995              2        0        0        0        0        0
 9  1994  1995             -1        0        0        0        0        1
10  1999  1995              4        0        0        0        0        0
# ... with 6 more variables: event_f0 <dbl>, event_f1 <dbl>, event_f2 <dbl>,
#   event_f3 <dbl>, event_f4 <dbl>, event_f5 <dbl>

Если вы не хотите проходить через все возможные различия в годах - (это создаст «пустые» столбцы) - вы можете просто создать вектор с unique(df$relative_event) и запустить i через этот вектор

0 голосов
/ 05 сентября 2018

Я не буду утверждать, что это полный ответ, но, надеюсь, это побудит некоторых других пользователей комментировать / публиковать

     # load packages
     pacman::p_load(tibble,dplyr,tidyr)

     # your dataframe
     df <- tibble("a" = runif(10,1990,2000),
                  "event" = 1995) %>%
       mutate("relative_event" = round(a - event),0)

     df$rel3 <- df$relative_event #initialize new column

     for(xx in 1:(length(df$relative_event))) {
       if (df$relative_event[xx] <=0) {
         df$rel3[xx] <- paste0('b',as.character(abs(df$relative_event[xx])))
         } else {
         #add preceding a for "after"
         df$rel3[xx] <- paste0('a',as.character(abs(df$relative_event[xx])))
       }
     }

img1

Затем вы можете преобразовать значения в rel3 в столбцы в df.

...