Question

Пример данных

set.seed(123)
df <- data.frame(year = c(rep(1980:1994, each = 9), rep(1995, times = 8), rep(1996:2012, each = 9), 
                          rep(2013, times = 7), rep(2014, times = 9)),
                 ref.doy = sample(120:180, 312, replace = T),
                 x = rnorm(312))

Для каждого года, если нет.из ref.doy - это не 9, тогда я хочу вставить дополнительные новые строки, которые являются точной копией последней строки.

Например, если для 1995 года есть только 8 ref.doy, я хочускопируйте 8-й ряд, сделайте 9-й ряд.Если в 2013 году их всего 8 ref.doy, то я хочу скопировать 7-ю строку и продублировать ее как 8-ю и 9-ю строку и т. Д.

Решение, которое у меня есть на данный момент, - это цикл for:

x <- df %>% group_by(year) %>% dplyr::mutate(y.length = n())
year.vec <- 1980:2014
temp.list <- list()

for(y in seq_along(year.vec)){

  yr <- year.vec[y]
  temp <- x %>% dplyr::filter(year == yr)  

  if(unique(temp$y.length) != 9) {

    lastrow <- temp[nrow(temp), ]
    lastrow.repeat <- as.data.frame(lapply(lastrow, rep, 9 - nrow(temp))) 
    full.data  <- rbind(data.frame(temp), lastrow.repeat)         
    temp.list[[y]] <- full.data

    } else {
    temp.list[[y]] <- temp
  }
}

newdata <- rbindlist(temp.list)

Мне нужна помощь, чтобы сделать это в пределах dplyr или data.table.

Jaap · Answer 1 · 01 октября 2018

Использование data.table :

library(data.table)
setDT(df)

df[, ri := rowid(year)]

df2 <- df[CJ(year = year, ri = 1:9, unique = TRUE), on = .(year, ri)
          ][, (2:3) := lapply(.SD, zoo::na.locf), .SDcols = 2:3
            ][, ri := NULL][]

, которое дает желаемый результат:

> df2[year %in% c(1995,2013)]
    year ref.doy           x
 1: 1995     160  1.05418102
 2: 1995     170  1.14526311
 3: 1995     167 -0.57746800
 4: 1995     179  2.00248273
 5: 1995     146  0.06670087
 6: 1995     139  1.86685184
 7: 1995     144 -1.35090269
 8: 1995     120  0.02098359
 9: 1995     120  0.02098359
10: 2013     179  0.43528895
11: 2013     126  0.71517841
12: 2013     126  0.91717492
13: 2013     168 -2.66092280
14: 2013     167  1.11027710
15: 2013     120 -0.48498760
16: 2013     167  0.23061683
17: 2013     167  0.23061683
18: 2013     167  0.23061683

Что это делает:

df[, ri := rowid(year)] добавляет число на year
Затем объедините справочную таблицу (CJ(year = year, ri = 1:9, unique = TRUE)), в которой по девять строк для каждого года.Теперь результат будет содержать пустые строки для лет, в которых не было девяти строк.
Заполните пустые строки (2:3) := lapply(.SD, zoo::na.locf), .SDcols = 2:3
Наконец, удалите столбец ri, так как он больше не существует.необходимо с ri := NULL

Лучшая альтернатива, опубликованная @Henrik в комментариях:

df2 <- df[ , .SD[c(1:.N, rep(.N, 9 - .N))], by = year]

Ronak Shah · Answer 2 · 01 октября 2018

Взяв данные за последние два года, которые имеют 5 и 9 записей в 2013 и 2014 годах соответственно в качестве выборки.Мы filter группы, которые имеют менее 9 строк, и для этих групп мы повторяем последнюю строку для 9 - n() раз и добавляем эти строки в исходный кадр данных, используя bind_rows.

df1 <- tail(df, 14)

library(dplyr)

df1 %>% 
    bind_rows(df1 %>%
               group_by(year) %>%
               #suggested by @Henrik
               filter(n() < 9) %>%
               slice(rep(n(), 9 - n()))) %>%
     arrange(year)


#   year ref.doy          x
#1  2013     126  0.9171749
#2  2013     168 -2.6609228
#3  2013     167  1.1102771
#4  2013     120 -0.4849876
#5  2013     167  0.2306168
#6  2013     167  0.2306168
#7  2013     167  0.2306168
#8  2013     167  0.2306168
#9  2013     167  0.2306168
#10 2014     164 -0.2951578
#11 2014     158  0.8719650
#12 2014     149 -0.3484724
#13 2014     129  0.5185038
#14 2014     120 -0.3906850
#15 2014     147 -1.0927872
#16 2014     150  1.2100105
#17 2014     143  0.7409000
#18 2014     148  1.7242622

Применяя это к исходному кадру данных, и мы проверяем количество строк для каждого year.

df2 <- df %>% 
          bind_rows(df %>%
                      group_by(year) %>%
                      filter(n() < 9) %>%
                      slice(rep(n(), 9 - n()))) %>%
          arrange(year)


df2 %>%
   group_by(year) %>%
   summarise(no_of_rows = n())
# A tibble: 35 x 2
# year no_of_rows
#   <dbl>      <int>
# 1  1980          9
# 2  1981          9
# 3  1982          9
# 4  1983          9
# 5  1984          9
# 6  1985          9
# 7  1986          9
# 8  1987          9
# 9  1988          9
#10  1989          9
# ... with 25 more rows

Или, как упомянул @Henrik, наиболееСамый простой подход - взять последний ряд каждой группы и повторить его 9 - n() раз, независимо от того,

df %>% 
   group_by(year) %>% 
   slice(c(1:n(), rep(n(), 9 - n())))

Вставка новых строк с использованием dplyr / data.table

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Вставка новых строк с использованием dplyr / data.table

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов