R: как создать переменную ранжирования для каждого предмета, исключая значения NA - PullRequest
1 голос
/ 09 марта 2020

Я хочу сделать такой вид графика:

enter image description here

У меня есть «Продолжительность фиксации» (в секундах, но это нормально) и «Время» переменных и мне нужно создать переменную «Порядковый номер фиксации», в которой фиксации будут ранжироваться в соответствии с переменной времени для каждого субъекта . Данные моей фиксации включают в себя некоторые значения NA, которые не должны быть включены в рейтинг.

Выдержка из моих данных:

Subject FixationDuration Time
1       NA               1
1       0.33             2
1       NA               3
1       0.15             4.22
1       3.20             5.93
..
2       6.88             1
2       9.23             3
2       0.77             3.01
2       1.88             4.91
..
15      6.22             1
15      NA               1.56
15      NA               1.76
15      0.24             2.39

Мне нужен следующий результат:

Subject FixationDuration Time  OrdinalFixationNumber
1       NA               1     NA
1       0.33             2     1
1       NA               3     NA
1       0.15             4.22  2
1       3.20             5.93  3
..
2       6.88             1     1
2       9.23             3     2
2       0.77             3.01  3
2       1.88             4.91  4
..
15      6.22             1     1
15      NA               1.56  NA
15      NA               1.76  NA
15      0.24             2.39  2

Может ли кто-нибудь помочь мне с этим? Спасибо.

1 Ответ

0 голосов
/ 09 марта 2020

Вот один из вариантов. После группировки по «Субъекту» replace элементы не-Na в «FixationDuration» по row_number, упорядоченные со значениями «Time», где «FixationDuration» не-NA

library(dplyr)
df1 %>% 
   group_by(Subject) %>% 
   mutate(OrdinalFixationNumber = replace(FixationDuration,
      !is.na(FixationDuration), row_number(Time[!is.na(FixationDuration)])))
# A tibble: 13 x 4
# Groups:   Subject [3]
#   Subject FixationDuration  Time OrdinalFixationNumber
#     <int>            <dbl> <dbl>                 <dbl>
# 1       1            NA     1                       NA
# 2       1             0.33  2                        1
# 3       1            NA     3                       NA
# 4       1             0.15  4.22                     2
# 5       1             3.2   5.93                     3
# 6       2             6.88  1                        1
# 7       2             9.23  3                        2
# 8       2             0.77  3.01                     3
# 9       2             1.88  4.91                     4
#10      15             6.22  1                        1
#11      15            NA     1.56                    NA
#12      15            NA     1.76                    NA
#13      15             0.24  2.39                     2

В data.table это можно сделать с помощью

library(data.table)
setDT(df1)[!is.na(FixationDuration), OrdinalFixationNumber := 
          seq_len(.N)[order(Time)], by = Subject]
df1
#    Subject FixationDuration Time OrdinalFixationNumber
# 1:       1               NA 1.00                    NA
# 2:       1             0.33 2.00                     1
# 3:       1               NA 3.00                    NA
# 4:       1             0.15 4.22                     2
# 5:       1             3.20 5.93                     3
# 6:       2             6.88 1.00                     1
# 7:       2             9.23 3.00                     2
# 8:       2             0.77 3.01                     3
# 9:       2             1.88 4.91                     4
#10:      15             6.22 1.00                     1
#11:      15               NA 1.56                    NA
#12:      15               NA 1.76                    NA
#13:      15             0.24 2.39                     2

data

df1 <- structure(list(Subject = c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 
15L, 15L, 15L, 15L), FixationDuration = c(NA, 0.33, NA, 0.15, 
3.2, 6.88, 9.23, 0.77, 1.88, 6.22, NA, NA, 0.24), Time = c(1, 
2, 3, 4.22, 5.93, 1, 3, 3.01, 4.91, 1, 1.56, 1.76, 2.39)), 
class = "data.frame", row.names = c(NA, 
-13L))
...