Используйте значение из последней не пропущенной строки и примените функцию прокрутки - PullRequest
0 голосов
/ 02 февраля 2019

у меня есть данные, как в

DT <- data.frame(id=rep("A",times=10),B=1:10, C=c(NA,2:5,NA,NA,NA,NA,NA))
CT <- DT[,c(2,3)]*3
CT$id <- rep("B",times=10)
DT <- rbind(DT,CT)

Я хотел бы заполнить NA в столбце C его предыдущим значением плюс функцию значения другого столбца, столбца B (игнорируя первый NA в столбце C)Например:

DT$C[6] =DT$C[5]+DT$B[6]*0.3
DT$C[7] =DT$C[6]+DT$B[7]*0.3
DT$C[8] =DT$C[7]+DT$B[8]*0.3

и т. д.

Кроме того, мне нужно скопировать его по значению идентификатора (идентификатор столбца в таблице).Пример рис с тремя значениями, вычисленными вручную, ниже.Спасибо за предложения!

enter image description here

Ответы [ 2 ]

0 голосов
/ 02 февраля 2019

Формула для заполнения ячеек NA эквивалентна заполнению их с использованием na.locf плюс взятие в 0,3 раза большего количества B значений, соответствующих значениям NA в C.

Итак, сначаласоздайте выражение для вектора группировки, связывающего уникальное число с каждым не-NA и каждым отрезком последовательных NA.

rleid(seq_along(C) * !is.na(C)))

Для каждой из этих групп вычислите вектор кумулятивных сумм B * is.na(C), который равен 0если группа имеет один элемент, отличный от NA, и имеет значение cumsum, если группа состоит из последовательных NA.

Это дает следующее решение с одним оператором:

library(data.table)
library(zoo)

transform(DT, C = ave(C, id, FUN = na.locf0) + 
      0.3 * ave(B * is.na(C), rleid(seq_along(C) * !is.na(C)), id, FUN = cumsum))

, что дает:

   id  B    C
1   A  1   NA
2   A  2  2.0
3   A  3  3.0
4   A  4  4.0
5   A  5  5.0
6   A  6  6.8
7   A  7  8.9
8   A  8 11.3
9   A  9 14.0
10  A 10 17.0
11  B  3   NA
12  B  6  6.0
13  B  9  9.0
14  B 12 12.0
15  B 15 15.0
16  B 18 20.4
17  B 21 26.7
18  B 24 33.9
19  B 27 42.0
20  B 30 51.0
0 голосов
/ 02 февраля 2019

Вот один подход с accumulate из purrr

library(data.table)
library(purrr)
setDT(DT)[, C := {i1 <- which(is.na(C))[1] 
    replace(C, (i1-1):.N, accumulate(B[i1:.N], ~ .x + .y * 0.3, .init = C[i1-1]))}, 
      by = id]
#    id  B    C
# 1:  A  1  1.0
# 2:  A  2  2.0
# 3:  A  3  3.0
# 4:  A  4  4.0
# 5:  A  5  5.0
# 6:  A  6  6.8
# 7:  A  7  8.9
# 8:  A  8 11.3
# 9:  A  9 14.0
#10:  A 10 17.0
#11:  B  3  3.0
#12:  B  6  6.0
#13:  B  9  9.0
#14:  B 12 12.0
#15:  B 15 15.0
#16:  B 18 20.4
#17:  B 21 26.7
#18:  B 24 33.9
#19:  B 27 42.0
#20:  B 30 51.0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...