Вернуть одну строку из нескольких строк с частично совпадающими записями - PullRequest
0 голосов
/ 28 марта 2019

Я пересылаю этот вопрос с большей ясностью. К сожалению, не получил никаких решений из моей предыдущей публикации. Пожалуйста, помогите мне с этим.

Вот что я хочу сделать:

У меня есть набор данных с названием протеома. В нем 14 столбцов и тысячи строк. Строка 1, столбец 5: GHFCLKPGCNFHAESTRGYR Строка 2, столбец 5: FCLKPGCNFHAESTRGYR Строка 3, столбец 5: GHFCLKPGCNFHAESTR Строка 4: столбец 5: GCNFHAESTR

Пожалуйста, нажмите на эту ссылку, чтобы увидеть скриншот части исходного фрейма данных; i67.tinypic.com/2wd0ap3.png[/IMG]

Итак, в строке 2 отсутствуют первые две буквы строки 1; в строке 3 последние три буквы строки 1 отсутствуют; в строке 4 пропущены первые семь и последние три буквы строки 1.

Строки 2, 3 и 4 отражают артефакты научного метода, который я использовал для генерации данных, и поэтому я хочу удалить эти записи.

Я хочу, чтобы R возвратил только одну из четырех строк, в идеале строку 1, и удалил остальные. R может сделать это, сначала найдя все строки с совпадающей строкой букв, а затем удалив такие строки, сохранив только одну. Например, в приведенном выше наборе данных GCNFHAESTR совпадает во всех четырех строках, поэтому я хочу, чтобы R возвращал мне только одну строку, в идеале - верхнюю. Но я не знаю, как это сделать.

Надеюсь, на этот раз это будет лучше. Я с нетерпением жду ответа от экспертов.

Спасибо!

1 Ответ

0 голосов
/ 28 марта 2019

В ответ на предложение Julian_Hn вот dput моего набора данных:

dput(Proteome)
    structure(list(Protein.name = structure(c(1L, 1L, 1L, 1L, 2L, 
    3L), .Label = c("HCTF", "IFT", "ROSF"), class = "factor"), X..Proteins = c(5L, 
    5L, 5L, 5L, 3L, 7L), X..PSMs = c(3L, 1L, 6L, 2L, 2L, 4L), Previous.5.amino.acids =   structure(c(4L, 
5L, 4L, 2L, 3L, 1L), .Label = c("CWYAT", "FCLKP", "MGCPT", "NCTMY", 
"TMYFC"), class = "factor"), Sequence = structure(c(5L, 1L, 4L, 
2L, 3L, 6L), .Label = c("FCLKPGCNFHAESTRGYR", "GCNFHAESTR", "GFGFNWPHAVR", 
"GHFCLKPGCNFHAESTR", "GHFCLKPGCNFHAESTRGYR", "GNFSVKLMNR"), class = "factor")), .Names = c("Protein.name", 
"X..Proteins", "X..PSMs", "Previous.5.amino.acids", "Sequence"
), class = "data.frame", row.names = c(NA, -6L))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...