Я хочу выбрать подмножество моих данных на основе 2 условий:
Во-первых, вот мои данные:
Gene AreaID Label
DNAJC12 rs1111111 unlikely
HERC4 rs1111111 unlikely
RP11-57G10.8 rs2222222 possible
RPL12P8 rs1111111 unlikely
SIRT1 rs3333333 certain
RP11-57G10.8 rs3333333 possible
RPL12P8 rs3333333 unlikely
SIRT1 rs3333333 unlikely
Я ищу подмножество этого, чтобы выбрать геныс меткой «маловероятно» и если они имеют одинаковый идентификатор области.Однако идентификатор также должен , а не присутствовать для любых других генов с любой другой меткой.
Так, например, мой вывод выбрал бы только это:
Gene AreaID Label
DNAJC12 rs1111111 unlikely
HERC4 rs1111111 unlikely
RPL12P8 rs1111111 unlikely
и не включал бы идентификатор области rs333333
, который маловероятен с повторяющимися идентификаторами, но также имеет гены различных меток.
По сути, я ищу подмножество для областей, в которых только гены помечены как маловероятные.
Я попытался, основываясь на прочтении похожих вопросов здесь, но, похоже, это не работает:
loci <- read.csv('dataset.csv')
sub_list <- lapply(1:length(loci), function(i) loci %>% filter(loci$AreaID==duplicated(loci) & loci$Label =='unlikely'))
do.call(rbind, sub_list)
Я также пытался:
prediction_snps = loci$AreaID[loci$label == 'unlikely']
result = loci[prediction_snps, ]
Я не уверен, как еще подойти к этому, поскольку я новичок в R, в настоящее время