Question

Ситуация: У меня есть список наборов данных, собранных различными регистраторами, например:

df <- structure(list(ID = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
                                  1L, 1L, 1L, 1L, 1L), .Label = "logger1", class = "factor"), OriginalTraitValue = c(0.37968, 
                                                                                                                     0.455131, 0.606376, 0.910194, 1.19499, 1.55612, 1.91735, 2.35493, 
                                                                                                                     2.60147, 2.42803, 1.66277, 1.12656, 0.628537), Temp = c(11.7334, 
                                                                                                                                                                             14.627, 19.3428, 24.5959, 29.6344, 34.7809, 39.606, 44.5389, 
                                                                                                                                                                             49.7914, 54.8254, 59.6391, 64.6695, 69.7002)), class = "data.frame", row.names = c(NA, 
                                                                                                                                                                                                                                                                -13L))

Задача: Я хочу толькохранить наборы данных, которые имеют минимум два записанных значения Temp, до и после max(OriginalTraitValue).

Надеюсь, этот сюжет прояснит ситуацию.Красный = максимальное значение, Зеленый = значения, необходимые для хранения набора данных.

Вопрос

Как мне это сделатьэто в R, например, используя dplyr?

Мне удалось определить значение Temp, соответствующее max(OriginalTraitValue), используя df$Temp[df$OriginalTraitValue == max(df$OriginalTraitValue)], но я борюсь с необходимыми аргументами позиции для фильтрации данныхsets.

EDIT

В приведенном выше примере представлен набор данных, который я хотел бы сохранить.Полный набор данных выглядит примерно так:

    df <- structure(list(ID = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 
3L, 3L, 3L, 3L, 3L), .Label = c("logger1", "logger2", "logger3"
), class = "factor"), OriginalTraitValue = c(3.36e-11, 3.68e-11, 
5.12e-11, 6.24e-11, 6.72e-11, 8.64e-11, 1.04e-10, 1.1e-10, 1.18e-10, 
90.34189, 86.332214, 108.00114, 111.190155, 114.34427, 135.1673, 
139.18198, 142.76979, 145.09233, 0.002, 0.06, 0.07, 0.15, 0.17, 
0.17, 0.18, 0.18, 0.15, 0.07, 0.09), Temp = c(16, 18, 20, 22, 
24, 26, 28, 30, 32, 16.726307, 17.376368, 20.193129, 25.06135, 
25.060663, 29.875113, 29.924177, 30.422773, 34.417274, 10, 12.5, 
15, 18, 20, 22.5, 25, 27.5, 30, 32.5, 35)), class = "data.frame", row.names = c(NA, 
-29L))

> summary(df)
       ID     OriginalTraitValue      Temp      
 logger1: 9   Min.   :  0.00     Min.   :10.00  
 logger2: 9   1st Qu.:  0.00     1st Qu.:18.00  
 logger3:11   Median :  0.15     Median :25.00  
              Mean   : 37.02     Mean   :23.90  
              3rd Qu.: 90.34     3rd Qu.:29.92  
              Max.   :145.09     Max.   :35.00

В этом наборе данных я бы оставил только ID как logger3, поскольку только logger3 содержит как минимум 2 значения до и после max(OriginalTraitValue).

Sonny · Answer 1 · 28 февраля 2019

Вы можете достичь этого с помощью dplyr filter

df %>%
  group_by(ID) %>%
  filter(abs(which(OriginalTraitValue == max(OriginalTraitValue)) - row_number()) <= 2)

  ID      OriginalTraitValue  Temp
  <fct>                <dbl> <dbl>
1 logger1               1.92  39.6
2 logger1               2.35  44.5
3 logger1               2.60  49.8
4 logger1               2.43  54.8
5 logger1               1.66  59.6

arg0naut91 · Answer 2 · 28 февраля 2019

Попробуйте:

library(dplyr)

df %>%
  group_by(ID) %>%
  slice(which.max(OriginalTraitValue) + -2:2) %>%
  filter(n() == 5)

Вывод:

# A tibble: 5 x 3
# Groups:   ID [1]
  ID      OriginalTraitValue  Temp
  <fct>                <dbl> <dbl>
1 logger1               1.92  39.6
2 logger1               2.35  44.5
3 logger1               2.60  49.8
4 logger1               2.43  54.8
5 logger1               1.66  59.6

Если вы хотите отфильтровать всю группу, а не только 5 замечаний в вопросах, вы также можете сделать что-то вроде:

df %>%
  group_by(ID) %>%
  filter(any(cumsum(row_number() %in% c(which.max(OriginalTraitValue) + -2:2)) == 5))

Подмножество, использующее минимальное количество значений, расположенных вокруг максимального значения

Вопрос

EDIT

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подмножество, использующее минимальное количество значений, расположенных вокруг максимального значения

Вопрос

EDIT

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы