Перекрытие столбцов в двух двоичных кадрах данных R и вычисление перекрытия / неперекрытия для каждого столбца - PullRequest
1 голос
/ 18 июня 2020

Мои два фрейма данных выглядят следующим образом:

df1 <- structure(list(species = structure(1:4, .Label = c("a", "b", 
                                                          "c", "d"), class = "factor"), sample1 = c(1L, 1L, 1L, 1L), sample2 = c(0L, 
                                                                                                                                 0L, 1L, 1L)), class = "data.frame", row.names = c(NA, -4L))
df2 <- structure(list(species = structure(c(1L, 5L, 6L, 7L, 2L, 3L, 
                                            4L), .Label = c("a", "b", "c", "d", "x", "y", "z"), class = "factor"), 
                      sample1 = c(1L, 1L, 0L, 1L, 0L, 1L, 1L), sample2 = c(1L, 
                                                                           1L, 1L, 0L, 1L, 1L, 1L)), class = "data.frame", row.names = c(NA, 
                                                                                                                                         -7L))

1/0 указывает на присутствие и отсутствие.

Теперь я хочу сопоставить каждый столбец df1 с соответствующим столбцом в df2 и сохранить сравнение приводит к двум параметрам (для каждого столбца в df1).

  1. TP - Количество ненулевых значений df1 в каждом столбце, сопоставленных с соответствующими ненулевыми значениями df2 и

  2. FP - Количество ненулевые значения df1 в каждом столбце, которые не совпадают с соответствующими ненулевыми значениями df2.

Выходной кадр данных (df3) должен быть:

df3<-structure(list(species = structure(c(1L, 2L, 3L, 4L, 6L, 5L), .Label = c("a", 
                                                                         "b", "c", "d", "FP", "TP"), class = "factor"), sample1 = c(1L, 
                                                                                                                                    1L, 1L, 1L, 3L, 1L), sample2 = c(0L, 0L, 1L, 1L, 2L, 0L)), class = "data.frame", row.names = c(NA, 
                                                                                                                                                                                                                                   -6L))

Я пытаюсь использовать setdiff для получения различий в df1:

overlap <- for ( i in 1:colnames(df1)){
     data.frame(setdiff(df1[,i], df2[,i]) >0)
  }

Но очевидно, что это неправильный путь.

Спасибо за вашу помощь!

1 Ответ

2 голосов
/ 18 июня 2020

Что-то вроде этого?

i <- match(df1$species, df2$species)

TP <- colSums((df2[i, -1] == df1[-1]) & (df1[-1] == 1))
FP <- colSums((df2[i, -1] != df1[-1]) & (df1[-1] == 1))

TP <- cbind.data.frame(species = 'TP', t(TP))
FP <- cbind.data.frame(species = 'FP', t(FP))
res <- rbind(df1, TP, FP)

res
#  species sample1 sample2
#1       a       1       0
#2       b       1       0
#3       c       1       1
#4       d       1       1
#5      TP       3       2
#6      FP       1       0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...