У меня есть два кадра данных, и я хочу сделать сопоставление и объединить.Первоначально я использовал inner_join и coalesce, но понял, что совпадающая часть не соответствует должным образом.
Я нашел пример, который, кажется, был в правильном направлении Как объединить два фрейма данных на основе частичной строкисовпадать с R? .В одном ответе предлагалось использовать этот код:
idx2 <- sapply(df_mouse_human$Protein.IDs, grep, df_mouse$Protein.IDs)
idx1 <- sapply(seq_along(idx2), function(i) rep(i, length(idx2[[i]])))
merged <- cbind(df_mouse_human[unlist(idx1),,drop=F], df_mouse[unlist(idx2),,drop=F])
Однако он не удался.Проблема заключается в том, что набор данных, который я хочу использовать в качестве сопоставления с образцом, содержит строки, которые длиннее, чем то, что я хочу сопоставить, и, следовательно, ничего не совпадают.Позвольте мне показать подмножество данных:
dput(droplevels(df_mouse))
structure(list(Protein.IDs = c("Q8CBM2;A2AL85;Q8BSY0", "A2AMH3;A2AMH5;A2AMH4;Q6X893;Q6X893-2;A2AMH8",
"A2AMW0;P47757-2;A2AMV7;P47757;F6QJN8;F6YHZ8;F7CAZ6", "Q3U8S1;A2APM5;A2APM3;A2APM4;E9QKM8;Q80X37;A2APM1;A2APM2;P15379-2;P15379-3;P15379-6;P15379-11;P15379-5;P15379-10;P15379-9;P15379-4;P15379-8;P15379-7;P15379;P15379-12;P15379-13",
"A2ASS6;E9Q8N1;E9Q8K5;A2ASS6-2;A2AT70;F7CR78", "A2AUR7;Q9D031;Q01730"
), Replicate = c(2L, 2L, 2L, 2L, 2L, 2L), Ratio.H.L.normalized.01 = c(NaN,
NaN, NaN, NaN, NaN, NaN), Ratio.H.L.normalized.02 = c(NaN, NaN,
NaN, NaN, NaN, NaN), Ratio.H.L.normalized.03 = c(NaN, NaN, NaN,
NaN, NaN, NaN)), .Names = c("Protein.IDs", "Replicate", "Ratio.H.L.normalized.01",
"Ratio.H.L.normalized.02", "Ratio.H.L.normalized.03"), row.names = 12:17, class = "data.frame")
dput(droplevels(df_mouse_human))
structure(list(Human = c("Q8WZ42", "Q8NF91", "Q9UPN3", "Q96RW7",
"Q8WXG9", "P20929", "Q5T4S7", "O14686", "Q2LD37", "Q92736"),
Protein.IDs = c("A2ASS6", "Q6ZWR6", "Q9QXZ0", "D3YXG0", "Q8VHN7",
"E9Q1W3", "A2AN08", "Q6PDK2", "A2AAE1", "E9Q401")), .Names = c("Human",
"Protein.IDs"), row.names = c(NA, 10L), class = "data.frame")
Поэтому я хочу сопоставить Protein.IDs в df_mouse
с тем, где они существуют в df_mouse_human
.В примерах данных я пытаюсь сопоставить A2ASS6; E9Q8N1; E9Q8K5; A2ASS6-2; A2AT70; F7CR78 с записью A2ASS6.Это работает хорошо, если я делаю это по-другому, но есть ли способ, чтобы, если часть шаблона соответствовала запросу, она возвращалась ИСТИНА?
Моя долгосрочная цель состоит в том, чтобы сопоставить и объединить данные, чтобы df_mouse получил новый столбец с совпадающими идентификаторами белка человека, а там, где нет совпадения, я просто заменю значение NA исходной строкой.идентификаторов мыши.
спасибо