Выберите годы с наибольшим количеством повторных выборок сайтов в R - PullRequest
0 голосов
/ 08 ноября 2018

У меня есть много сайтов, которые были отобраны по многим комбинациям «сезон-год» (временной столбец). Я хочу выбрать комбинации сезон-год, в которых имеется 10 или более одинаковых сайтов. Данные в нижней части этого поста. Есть мысли, как сделать эту работу?

Код, который я пробовал, не работал:

subset1 <- tbl_df(coords) %>%
  group_by(SznYr) %>%
  tally(SiteID) %>%
  top_n(10)

subset2 <- tbl_df(coords) %>% group_by(SznYr) %>% top_n(2, SiteID)

Данные в этой ссылке googledoc - https://docs.google.com/document/d/1SsTIZwJBGGqeaz7VyH7lh9mLc8XQJ4b9gEnQ_3hWzj4/edit?usp=sharing

1 Ответ

0 голосов
/ 08 ноября 2018

Мы можем использовать count и затем фильтровать для n >= 10. Однако, как вы можете видеть ниже, максимальное число отсчетов составляет только 3. Я не думаю, что вы можете найти SznYr с 10 или более 10 отсчетов.

coords %>%
  count(SITEID, SznYr) %>%
  arrange(desc(n))
# # A tibble: 2,013 x 3
#    SITEID SznYr           n
#    <fct>  <fct>       <int>
#  1 SB506  1994-Summer     3
#  2 SB506  1995-Summer     3
#  3 SB506  1996-Spring     3
#  4 SB267  1994-Fall       2
#  5 SB267  1995-Winter     2
#  6 SB357  1995-Summer     2
#  7 SB367  1995-Summer     2
#  8 SB368  1994-Fall       2
#  9 SB368  1995-Fall       2
# 10 SB407  1993-Winter     2
# # ... with 2,003 more rows 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...