R - Фильтр данных из фрейма данных - PullRequest
5 голосов
/ 18 января 2012

Я новичок в R и действительно не знаю, как фильтровать данные в рамке даты.

Я создал фрейм данных с двумя столбцами, включая месячную дату и соответствующую температуру. Он имеет длину 324.

> head(Nino3.4_1974_2000)
  Month_common               Nino3.4_degree_1974_2000_plain
1   1974-01-15                       -1.93025
2   1974-02-15                       -1.73535
3   1974-03-15                       -1.20040
4   1974-04-15                       -1.00390
5   1974-05-15                       -0.62550
6   1974-06-15                       -0.36915

Правило фильтрации - выбирать температуру, которая больше или равна 0,5 градуса. Кроме того, это должно быть как минимум 5 месяцев непрерывно.

У меня есть данные с температурой менее 0,5 градуса (см. Ниже).

for (i in 1) {
el_nino=Nino3.4_1974_2000[which(Nino3.4_1974_2000$Nino3.4_degree_1974_2000_plain >= 0.5),]
}

> head(el_nino)
   Month_common               Nino3.4_degree_1974_2000_plain
32   1976-08-15                      0.5192000
33   1976-09-15                      0.8740000
34   1976-10-15                      0.8864501
35   1976-11-15                      0.8229501
36   1976-12-15                      0.7336500
37   1977-01-15                      0.9276500

Тем не менее, мне все еще нужно извлекать непрерывно 5 месяцев. Я бы хотел, чтобы кто-нибудь помог мне.

Ответы [ 2 ]

4 голосов
/ 18 января 2012

Если вы всегда можете рассчитывать на интервал в один месяц, давайте временно отбросим информацию о времени:

temps <- Nino3.4_1974_2000$Nino3.4_degree_1974_2000_plain

Итак, поскольку каждая температура в этом векторе всегда разделена одним месяцем, нам просто нужно искать прогоны, где temps[i]>=0.5, и прогон должен быть не менее 5 длин.

Если мы сделаем следующее:

ofinterest <- temps >= 0.5

у нас будет вектор ofinterest со значениями TRUE FALSE FALSE TRUE TRUE .... и т. Д., Где он TRUE, когда temps[i] был> = 0,5, а FALSE в противном случае.

Чтобы перефразировать вашу проблему, нам просто нужно найти вхождения не менее пяти TRUE подряд .

Для этого мы можем использовать функцию rle. ?rle дает:

> ?rle
Description
     Compute the lengths and values of runs of equal values in a vector
     - or the reverse operation.
Value:
     ‘rle()’ returns an object of class ‘"rle"’ which is a list with
     components:    
 lengths: an integer vector containing the length of each run.
  values: a vector of the same length as ‘lengths’ with the
          corresponding values.

Таким образом, мы используем rle, который подсчитывает все серии подряд TRUE подряд и последовательно FALSE подряд, и ищет по крайней мере 5 TRUE подряд.

Я просто сделаю некоторые данные для демонстрации:

# for you, temps <- Nino3.4_1974_2000$Nino3.4_degree_1974_2000_plain
temps <- runif(1000) 

# make a vector that is TRUE when temperature is >= 0.5 and FALSE otherwise
ofinterest <- temps >= 0.5

# count up the runs of TRUEs and FALSEs using rle:
runs <- rle(ofinterest) 

# we need to find points where runs$lengths >= 5 (ie more than 5 in a row), 
# AND runs$values is TRUE (so more than 5 'TRUE's in a row).
streakIs <- which(runs$lengths>=5 & runs$values)

# these are all the el_nino occurences. 
# We need to convert `streakIs` into indices into our original `temps` vector.
# To do this we add up all the `runs$lengths` up to `streakIs[i]` and that gives
#  the index into `temps`.
# that is:
# startMonths <- c()
# for ( n in streakIs ) {
#     startMonths <- c(startMonths,   sum(runs$lengths[1:(n-1)]) + 1
# }
#
# However, since this is R we can vectorise with sapply:
startMonths <- sapply(streakIs, function(n) sum(runs$lengths[1:(n-1)])+1)

Теперь, если вы сделаете Nino3.4_1974_2000$Month_common[startMonths], вы получите все месяцы, в которые начинался Эль-Ниньо.

Это сводится к нескольким строкам:

runs <- rle(Nino3.4_1974_2000$Nino3.4_degree_1974_2000_plain>=0.5) 
streakIs <- which(runs$lengths>=5 & runs$values)
startMonths <- sapply(streakIs, function(n) sum(runs$lengths[1:(n-1)])+1)
Nino3.4_1974_2000$Month_common[startMonths]
1 голос
/ 18 января 2012

Вот один из способов использования того факта, что месяцы регулярны всегда с интервалом в один месяц.Чем проблема сводится к нахождению 5 последовательных строк с временными значениями> = 0,5 градуса:

# Some sample data
d <- data.frame(Month=1:20, Temp=c(rep(1,6),0,rep(1,4),0,rep(1,5),0, rep(1,2)))
d

# Use rle to find runs of temps >= 0.5 degrees
x <- rle(d$Temp >= 0.5)

# The find the last row in each run of 5 or more
y <- x$lengths>=5 # BUG HERE: See update below!
lastRow <- cumsum(x$lengths)[y]

# Finally, deduce the first row and make a result matrix
firstRow <- lastRow - x$lengths[y] + 1L
res <- cbind(firstRow, lastRow) 
res
#     firstRow lastRow
#[1,]        1       6
#[2,]       13      17

ОБНОВЛЕНИЕ У меня была обнаружена ошибка, которая работает с 5 значениями меньше 0,5.Вот обновленный код (и тестовые данные):

d <- data.frame(Month=1:20, Temp=c(rep(0,6),1,0,rep(1,4),0,rep(1,5),0, 1))
x <- rle(d$Temp >= 0.5)
y <- x$lengths>=5 & x$values
lastRow <- cumsum(x$lengths)[y]
firstRow <- lastRow - x$lengths[y] + 1L
res <- cbind(firstRow, lastRow) 
res
#     firstRow lastRow
#[2,]       14      18
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...