Несколько медленное base-dplyr
решение. Некоторые проблемы с этим решением включают необходимость вручную устанавливать «блоки» и «snps» в нашей функции фильтра. Вероятно, можно автоматизировать этот процесс.
my_filter <- function(df,block, snp){
res<-strsplit(df[[block]],"|", fixed= TRUE)
lengths(lapply(res, function(x) which(x %in% df[[snp]]))) > 1
}
df %>%
filter(my_filter(., "block1", "SNPA"), my_filter(., "block2","SNPB"))
SNPA SNPB value block1 block2 score_T
1 A1 A22 0.379927 A1|A2|A3|A4|A5|A6 A22|A23|A24|A25 12
2 A2 A23 0.449074 A1|A2|A3|A4|A5|A6 A22|A23|A24|A25 25
3 A3 A24 0.464135 A1|A2|A3|A4|A5|A6 A22|A23|A24|A25 584
4 A4 A22 0.328866 A1|A2|A3|A4|A5|A6 A22|A23|A24|A25 51
5 A5 A22 0.326026 A1|A2|A3|A4|A5|A6 A22|A23|A24|A25 64
6 A22 A27 0.571690 A22|A23|A24|A25 A27|A28|A29|A30|A31 77
7 A23 A28 0.416178 A22|A23|A24|A25 A27|A28|A29|A30|A31 90
8 A24 A29 0.456144 A22|A23|A24|A25 A27|A28|A29|A30|A31 103
Данные:
df <-structure(list(SNPA = c("A1", "A2", "A3", "A4", "A5", "A22",
"A23", "A24", "A34", "A34", "A34", "A39", "A40", "A41"), SNPB = c("A22",
"A23", "A24", "A22", "A22", "A27", "A28", "A29", "A39", "A40",
"A41", "A57", "A57", "A57"), value = c(0.379927, 0.449074, 0.464135,
0.328866, 0.326026, 0.57169, 0.416178, 0.456144, 0.379927, 0.759074,
0.562303, 0.322303, 0.372303, 0.562303), block1 = c("A1|A2|A3|A4|A5|A6",
"A1|A2|A3|A4|A5|A6", "A1|A2|A3|A4|A5|A6", "A1|A2|A3|A4|A5|A6",
"A1|A2|A3|A4|A5|A6", "A22|A23|A24|A25", "A22|A23|A24|A25", "A22|A23|A24|A25",
"A31|A32|A33|A34", "A31|A32|A33|A34", "A31|A32|A33|A34", "A39|A40|A41|A42",
"A39|A40|A41|A42", "A39|A40|A41|A42"), block2 = c("A22|A23|A24|A25",
"A22|A23|A24|A25", "A22|A23|A24|A25", "A22|A23|A24|A25", "A22|A23|A24|A25",
"A27|A28|A29|A30|A31", "A27|A28|A29|A30|A31", "A27|A28|A29|A30|A31",
"A39|A40|A41|A42", "A39|A40|A41|A42", "A39|A40|A41|A42", "A52|A53|A54|A55|A56|A57|A58|A59|A60|A61",
"A52|A53|A54|A55|A56|A57|A58|A59|A60|A61", "A52|A53|A54|A55|A56|A57|A58|A59|A60|A61"
), score_T = c(12L, 25L, 584L, 51L, 64L, 77L, 90L, 103L, 116L,
129L, 142L, 25L, 198L, 356L)), class = "data.frame", row.names = c(NA,
-14L))