Для моего набора данных мне нужна строка для каждого года для каждого идентификатора, и я хочу определить, жили ли они в городской местности или нет (0/1). Поскольку некоторые удостоверения личности перемещены в течение года и, следовательно, имеют две строки для этого года, я хочу определить, есть ли у них две строки для указанного c года, что означает, что они жили в этом году в городской и загородной местности (так Я могу вручную определить в Excel, где они принадлежат).
Я уже исключил точные двойные строки (поэтому они переехали в определенный год, но урбанизация не изменилась).
df <- df %>% distinct(ID, YEAR, URBAN, .keep_all = TRUE)
structure(t2A)
# A tibble: 3,177,783 x 4
ID ZIPCODE YEAR URBAN
<dbl> <chr> <chr> <dbl>
1 1 1234AB 2013 0
2 1 1234AB 2014 0
3 1 1234AB 2015 0
4 1 1234AB 2016 0
5 1 1234AB 2017 0
6 1 1234AB 2018 0
7 2 5678CD 2013 0
8 2 5678CD 2014 0
9 2 5678CD 2015 0
10 2 5678CD 2016 0
# ... with 3,177,773 more rows
structure(list(ID= c(1, 1, 1, 1
), YEAR = c("2013", "2014", "2015", "2016"), URBAN = c(0,
0, 0, 0)), row.names = c(NA, -4L), class = c("tbl_df", "tbl",
"data.frame"))
Ребята, не могли бы вы мне помочь с определением идентификаторов, которые имеют две строки для определенного c года / имеют 0 и 1 в том же году?
Изменить: пример не соответствует не показывает никаких удостоверений личности с урбанизацией 1, но есть и не все удостоверения личности включены во все годы :)