Объедините только разные строки в r - PullRequest
1 голос
/ 03 мая 2019

У меня есть два data.frames, подобных этим:

#Dt1
Id  Date Weight  
1    2     10
2    3     20
3    4     30
4    4     30
5    6     40

и

#DT2
Id  Date Weight late 
1    2     10     3
2    3     20     4
3    4     30     5
8    5     10     6

Я хотел бы объединить эти файлы, учитывая только разные ID между ними, вот так:

#Dt.final
Id  Date Weight late
4    4     30    NA
5    6     40    NA
8    5     10     6

Мои оригиналы больше, чем эти, спасибо.

Ответы [ 3 ]

4 голосов
/ 03 мая 2019

кроме ответа @yarnabrina, anti_join в dplyr также то, что вам нужно, но мы должны подать заявку дважды. anti_join(x, y) отбрасывает все obs в x, которые совпадают в y:

> full_join(anti_join(df1, df2, by = 'Id'), anti_join(df2, df1, by = 'Id'))
Joining, by = c("Id", "Date", "Weight")
  Id Date Weight late
1  4    4     30   NA
2  5    6     40   NA
3  8    5     10    6
3 голосов
/ 03 мая 2019

Вы ищете что-то подобное?

library(dplyr)
#> 
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#> 
#>     filter, lag
#> The following objects are masked from 'package:base':
#> 
#>     intersect, setdiff, setequal, union

df1 <- data.frame(Id = c(1, 2, 3, 4, 5),
                  Date = c(2, 3, 4, 4, 6),
                  Weight = c(10, 20, 30, 30, 40))

df2 <- data.frame(Id = c(1, 2, 3, 8),
                  Date = c(2, 3, 4, 5),
                  Weight = c(10, 20, 30, 10),
                  late = c(3, 4, 5, 6))

full_join(x = filter(.data = df1, Id %in% setdiff(x = df1$Id, y = df2$Id)),
          y = filter(.data = df2, Id %in% setdiff(x = df2$Id, y = df1$Id)))
#> Joining, by = c("Id", "Date", "Weight")
#>   Id Date Weight late
#> 1  4    4     30   NA
#> 2  5    6     40   NA
#> 3  8    5     10    6

Создано в 2019-05-03 пакетом представ. (v0.2.1)

2 голосов
/ 03 мая 2019

возможно, это может решить вашу проблему, это ручной ответ, но я надеюсь, что не так уж и плохо:

df_1 <- data.frame(ID = factor(1:5, levels=1:8),
                   Date = c(2, 3, 4, 4, 6),
                   Weight = c(10, 20, 20, 30, 40))

df_2 <- data.frame(ID = factor(4:8, levels=1:8),
                   Date = c(2, 3, 4, 4, 6),
                   Weight = c(10, 20, 20, 30, 40),
                   late = c(1, 2, 3, 4, 5))

# Temporary dataframe
df_temp <- data.frame(
  df_1[!df_1$ID %in% df_2$ID, ],
  late = NA)

df.final <- rbind(
  df_temp,
  df_2[!df_2$ID %in% df_1$ID, ])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...