Question

Я чувствую, что ответ здесь очевиден, но я не могу его закрепить.У меня есть этот фрейм данных:

df <- structure(list(SIC = c(3L, 12L, 11L, 7L, 18L, 5L, 19L, 17L, 1L, 
10L, 8L, 16L, 14L, 2L, 15L, 6L, 9L, 4L, 13L, 3L, 12L, 11L, 7L, 
18L, 5L, 19L, 17L, 1L, 10L, 8L, 16L, 14L, 2L, 15L, 6L, 9L, 4L, 
13L, 3L, 12L, 11L, 7L, 18L, 5L, 19L, 17L, 1L, 10L, 8L, 16L, 14L, 
2L, 15L, 6L, 9L, 4L, 13L, 3L, 12L, 11L, 7L, 18L, 5L, 19L, 17L, 
1L, 10L, 8L, 16L, 14L, 2L, 15L, 6L, 9L, 4L, 13L, 3L, 12L, 11L, 
7L, 18L, 5L, 19L, 17L, 1L, 10L, 8L, 16L, 14L, 2L, 15L, 6L, 9L, 
4L, 13L, 3L, 12L, 11L, 7L, 18L, 5L, 19L, 17L, 1L, 10L, 8L, 16L, 
14L, 2L, 15L, 6L, 9L, 4L, 13L, 3L, 12L, 11L, 7L, 18L, 5L, 19L, 
17L, 1L, 10L, 8L, 16L, 14L, 2L, 15L, 6L, 9L, 4L, 13L, 3L, 12L, 
11L, 7L, 18L, 5L, 19L, 17L, 1L, 10L, 8L, 16L, 14L, 2L, 15L, 6L, 
9L, 4L, 13L), year = c(2011, 2011, 2011, 2011, 2011, 2011, 2011, 
2011, 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2011, 
2011, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 
2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2013, 2013, 
2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 
2013, 2013, 2013, 2013, 2013, 2013, 2014, 2014, 2014, 2014, 2014, 
2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 
2014, 2014, 2014, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 
2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 
2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 
2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2017, 2017, 2017, 
2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017, 
2017, 2017, 2017, 2017, 2017, 2018, 2018, 2018, 2018, 2018, 2018, 
2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 
2018, 2018), value = c(NA, 0.081, 0.218, 0.212, NA, 0.092, 0.142, 
0.001, 0.045, 0.143, 0.361, 0.175, 0.295, 0.003, 0.146, 0.01, 
0.163, NA, 0.225, NA, 0.108, 0.274, 0.219, NA, 0.097, 0.148, 
-0.049, 0.098, 0.26, 0.251, 0.153, 0.262, 0.119, 0.096, 0, 0.149, 
NA, NA, NA, 0.064, 0.27, 0.16, NA, 0.103, 0.148, -0.029, 0.084, 
0.219, 0.314, 0.142, 0.255, 0.026, 0.031, -0.003, 0.164, NA, 
NA, NA, NA, 0.257394804, 0.124025397, NA, 0.071727544, 0.13439, 
-0.017419321, 0.091993981, 0.171021874, 0.308369685, 0.208573024, 
0.310316421, 0.06216349, 0.074913633, -0.034273066, 0.181129287, 
0.07876301, 0.121, NA, -0.063226494, 0.233968039, 0.179367136, 
NA, 0.105362761, 0.15319907, -0.033967241, -0.035027867, 0.144316565, 
0.304955404, 0.069662044, 0.304262651, 0.075256422, 0.051273353, 
-0.067541918, 0.157814304, 0.050231459, 0.06308377, NA, -8.4, 
21, 17.9, NA, 7.3, 12.6, -1.2, 4.1, 10.3, 30.2, 8.7, 28.1, 4.7, 
1.3, -7.7, 12.5, 15.9, 19.4, 16.9, 4, 18.2, 13.5, NA, 10.9, 12.8, 
-0.7, 4.2, 7.5, 26.8, 5, 30.3, 0.9, 2.5, -2.4, 13.5, 12.8, 17, 
NA, NA, 17.2, 17.7, NA, 0.6, 11.6, -2.9, 3, 18.7, 31, 6.2, 30.1, 
-1.1, 5.7, -0.5, 13.6, 6.1, -7)), class = c("tbl_df", "tbl", 
"data.frame"), row.names = c(NA, -152L))

Я бы хотел отфильтровать его по самому низкому И самому высокому году.Таким образом, все значения имеют столбцы как самого низкого, так и самого высокого года.Я собираюсь split / spread и сравнить эти два столбца.Мой подход был group_by на SIC, затем filter на !is.na(value), но это возвращает путь к нескольким значениям.Существует одна группа SIC, которая имеет только одно значение, поэтому ее самые низкие и самые высокие годы должны быть одинаковыми.Это то, что я пробовал до сих пор и отфильтровал слишком много значений.

library(dplyr)
df %>% 
  group_by(SIC) %>% 
  filter(!is.na(value)) %>% 
  filter(year %in% c(min(year), max(year)))

# A tibble: 35 x 3
# Groups:   SIC [18]
     SIC  year value
   <int> <dbl> <dbl>
 1    12  2011 0.081
 2    11  2011 0.218
 3     7  2011 0.212
 4     5  2011 0.092
 5    19  2011 0.142
 6    17  2011 0.001
 7     1  2011 0.045
 8    10  2011 0.143
 9     8  2011 0.361
10    16  2011 0.175
# ... with 25 more rows

Есть идеи?Спасибо.

РЕДАКТИРОВАТЬ:

Простая версия данных будет фильтровать следующим образом:

tibble(
  SIC = c(1,1,1,2,2, 2), 
  year = c(2011, 2012, 2013, 2011, 2012, 2013), 
  value = c(3, 4, NA, NA, 4, NA)
) %>% 
  filter(!is.na(value)) 

# A tibble: 3 x 3
    SIC  year value
  <dbl> <dbl> <dbl>
1     1  2011     3
2     1  2012     4
3     2  2012     4

Все строки, которые появляются один раз, должны учитываться как минимум имаксимальное значениеЕсть ли способ создать дублирующую строку для тех строк, которые появляются только один раз после применения фильтра?

BuffsGrad16 · Answer 1 · 23 февраля 2019

Я думаю, это то, что вы надеетесь достичь.Надеюсь, что это помогаетНе беспокойтесь, надеюсь, это то, что вам нужно:

SIC.low<-df %>%
  group_by(SIC) %>%
  slice(which.min(value))

SIC.high<-df %>%
  group_by(SIC) %>%
  slice(which.max(value))

clean.df2<-data.frame(SIC=SIC.high$SIC,
                     year.high = SIC.high$year,
                     max.value = SIC.high$value,
                     year.low= SIC.low$year,
                     min.value = SIC.low$value,stringsAsFactors = FALSE)


> head(clean.df2)
  SIC year.high max.value year.low   min.value
1   1      2017      4.20     2015 -0.03502787
2   2      2016      4.70     2018 -1.10000000
3   3      2017     16.90     2017 16.90000000
4   4      2016     15.90     2015  0.05023146
5   5      2017     10.90     2014  0.07172754
6   6      2011      0.01     2016 -7.70000000

arg0naut91 · Answer 2 · 23 февраля 2019

Попробуйте с slice:

tibble(
  SIC = c(1,1,1,2,2, 2), 
  year = c(2011, 2012, 2013, 2011, 2012, 2013), 
  value = c(3, 4, NA, NA, 4, NA)
) %>% 
  filter(!is.na(value)) %>%
  group_by(SIC) %>%
  slice(which.min(year), which.max(year))

Вывод:

# A tibble: 4 x 3
# Groups:   SIC [2]
    SIC  year value
  <dbl> <dbl> <dbl>
1     1  2011     3
2     1  2012     4
3     2  2012     4
4     2  2012     4

Попробуйте описанный выше подход к исходному фрейму данных, и вы также должны увидеть разницу с filter,

Например, для SIC число 3 slice дает:

# A tibble: 36 x 3
# Groups:   SIC [3]
    SIC  year   value
  <int> <dbl>   <dbl>
1     1  2011   0.045
2     1  2018   3    
3     2  2011   0.003
4     2  2018  -1.1  
5     3  2017  16.9  
6     3  2017  16.9

то есть повторяет год, тогда как filter просто сохраняет все, что соответствует аргументу:

# A tibble: 35 x 3
# Groups:   SIC [18]
     SIC  year    value
   <int> <dbl>    <dbl>
 1     1  2011   0.045 
 2     1  2018   3     
 3     2  2011   0.003 
 4     2  2018  -1.1   
 5     3  2017  16.9   
 6     4  2014   0.0788

Я использую dplyr 0.8.

A. Suliman · Answer 3 · 23 февраля 2019

library(dplyr)
df %>% arrange(SIC) %>% group_by(SIC) %>% filter(!is.na(value)) %>%
       filter(year %in% c(year[which.min(value)],year[which.max(value)])) %>% 
       bind_rows(filter(.,n()==1),.)


# A tibble: 36 x 3
# Groups:   SIC [18]
SIC  year    value
<int> <dbl>    <dbl>
1     3  2017  16.9   
2     1  2015  -0.0350
3     1  2017   4.2   
4     2  2016   4.7   
5     2  2018  -1.1   
6     3  2017  16.9   
7     4  2015   0.0502
8     4  2016  15.9   
9     5  2014   0.0717
10     5  2017  10.9   
# ... with 26 more rows

tigerloveslobsters · Answer 4 · 23 февраля 2019

Насколько я понимаю, вы хотите иметь две строки для SIC, чьи максимальный год и минимальный год совпадают.Я думаю, что вы можете разделить два и связать его так, чтобы он все еще имел 2 строки.

library(dplyr)

min_year <- df %>% 
  group_by(SIC) %>% 
  filter(!is.na(value)) %>% 
  filter(year %in% c(min(year)))

max_year <-  df %>% 
  group_by(SIC) %>% 
  filter(!is.na(value)) %>% 
  filter(year %in% c(max(year)))

total <- min_year %>% rbind(max_year)

Фильтр по наименьшему и наивысшему годам по группе с помощью dplyr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Фильтр по наименьшему и наивысшему годам по группе с помощью dplyr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов