R как нарезать список по заданному знаку и получить фрейм данных как положено? - PullRequest
0 голосов
/ 18 сентября 2018

Я скачал файл .txt с белковыми последовательностями и загрузил его в R. Я хотел бы преобразовать его так, чтобы attr (, "name") сохранялся как один столбец, а последовательность аминокислот в столбце рядом с ним,Мне не нужно attr ("Annot").Последовательности даже не длинны.Я не знал, как разместить список здесь. Как к нему приблизиться?так вот пример из двух последовательностей:

Это мой список:

structure(list(AT1G51370.2 = structure(c("m", "v", "g", "g", 
"k", "k", "k", "t", "k", "i", "c", "d", "k", "v", "s", "h", "e", 
"e", "d", "r", "i", "s", "q", "l", "p", "e", "p", "l", "i", "s", 
"e", "i", "l", "f", "h", "l", "s", "t", "k", "d", "s", "v", "r", 
"t", "s", "a", "l", "s", "t", "k", "w", "r", "y", "l", "w", "q", 
"s", "v", "p", "g", "l", "d", "l", "d", "p", "y", "a", "s", "s", 
"n", "t", "n", "t", "i", "v", "s", "f", "v", "e", "s", "f", "f", 
"d", "s", "h", "r", "d", "s", "w", "i", "r", "k", "l", "r", "l", 
"d", "l", "g", "y", "h", "h", "d", "k", "y", "d", "l", "m", "s", 
"w", "i", "d", "a", "a", "t", "t", "r", "r", "i", "q", "h", "l", 
"d", "v", "h", "c", "f", "h", "d", "n", "k", "i", "p", "l", "s", 
"i", "y", "t", "c", "t", "t", "l", "v", "h", "l", "r", "l", "r", 
"w", "a", "v", "l", "t", "n", "p", "e", "f", "v", "s", "l", "p", 
"c", "l", "k", "i", "m", "h", "f", "e", "n", "v", "s", "y", "p", 
"n", "e", "t", "t", "l", "q", "k", "l", "i", "s", "g", "s", "p", 
"v", "l", "e", "e", "l", "i", "l", "f", "s", "t", "m", "y", "p", 
"k", "g", "n", "v", "l", "q", "l", "r", "s", "d", "t", "l", "k", 
"r", "l", "d", "i", "n", "e", "f", "i", "d", "v", "v", "i", "y", 
"a", "p", "l", "l", "q", "c", "l", "r", "a", "k", "m", "y", "s", 
"t", "k", "n", "f", "q", "i", "i", "s", "s", "g", "f", "p", "a", 
"k", "l", "d", "i", "d", "f", "v", "n", "t", "g", "g", "r", "y", 
"q", "k", "k", "k", "v", "i", "e", "d", "i", "l", "i", "d", "i", 
"s", "r", "v", "r", "d", "l", "v", "i", "s", "s", "n", "t", "w", 
"k", "e", "f", "f", "l", "y", "s", "k", "s", "r", "p", "l", "l", 
"q", "f", "r", "y", "i", "s", "h", "l", "n", "a", "r", "f", "y", 
"i", "s", "d", "l", "e", "m", "l", "p", "t", "l", "l", "e", "s", 
"c", "p", "k", "l", "e", "s", "l", "i", "l", "v", "m", "s", "s", 
"f", "n", "p", "s"), name = "AT1G51370.2", Annot = ">AT1G51370.2 | Symbols:  | F-box/RNI-like/FBD-like domains-containing protein | chr1:19045615-19046748 FORWARD LENGTH=346", class = "SeqFastadna"), 
    AT1G50920.1 = structure(c("m", "v", "q", "y", "n", "f", "k", 
    "r", "i", "t", "v", "v", "p", "n", "g", "k", "e", "f", "v", 
    "d", "i", "i", "l", "s", "r", "t", "q", "r", "q", "t", "p", 
    "t", "v", "v", "h", "k", "g", "y", "k", "i", "n", "r", "l", 
    "r", "q", "f", "y", "m", "r", "k", "v", "k", "y", "t", "q", 
    "t", "n", "f", "h", "a", "k", "l", "s", "a", "i", "i", "d", 
    "e", "f", "p", "r", "l", "e", "q", "i", "h", "p", "f", "y", 
    "g", "d", "l", "l", "h", "v", "l", "y", "n", "k", "d", "h", 
    "y", "k", "l", "a", "l", "g", "q", "v", "n", "t", "a", "r", 
    "n", "l", "i", "s", "k", "i", "s", "k", "d", "y", "v", "k", 
    "l", "l", "k", "y", "g", "d", "s", "l", "y", "r", "c", "k", 
    "c", "l", "k", "v", "a", "a", "l", "g", "r", "m", "c", "t", 
    "v", "l", "k", "r", "i", "t", "p", "s", "l", "a", "y", "l", 
    "e", "q", "i", "r", "q", "h", "m", "a", "r", "l", "p", "s", 
    "i", "d", "p", "n", "t", "r", "t", "v", "l", "i", "c", "g", 
    "y", "p", "n", "v", "g", "k", "s", "s", "f", "m", "n", "k", 
    "v", "t", "r", "a", "d", "v", "d", "v", "q", "p", "y", "a", 
    "f", "t", "t", "k", "s", "l", "f", "v", "g", "h", "t", "d", 
    "y", "k", "y", "l", "r", "y", "q", "v", "i", "d", "t", "p", 
    "g", "i", "l", "d", "r", "p", "f", "e", "d", "r", "n", "i", 
    "i", "e", "m", "c", "s", "i", "t", "a", "l", "a", "h", "l", 
    "r", "a", "a", "v", "l", "f", "f", "l", "d", "i", "s", "g", 
    "s", "c", "g", "y", "t", "i", "a", "q", "q", "a", "a", "l", 
    "f", "h", "s", "i", "k", "s", "l", "f", "m", "n", "k", "p", 
    "l", "v", "i", "v", "c", "n", "k", "t", "d", "l", "m", "p", 
    "m", "e", "n", "i", "s", "e", "e", "d", "r", "k", "l", "i", 
    "e", "e", "m", "k", "s", "e", "a", "m", "k", "t", "a", "m", 
    "g", "a", "s", "e", "e", "q", "v", "l", "l", "k", "m", "s", 
    "t", "l", "t", "d", "e", "g", "v", "m", "s", "v", "k", "n", 
    "a", "a", "c", "e", "r", "l", "l", "d", "q", "r", "v", "e", 
    "a", "k", "m", "k", "s", "k", "k", "i", "n", "d", "h", "l", 
    "n", "r", "f", "h", "v", "a", "i", "p", "k", "p", "r", "d", 
    "s", "i", "e", "r", "l", "p", "c", "i", "p", "q", "v", "v", 
    "l", "e", "a", "k", "a", "k", "e", "a", "a", "a", "m", "e", 
    "k", "r", "k", "t", "e", "k", "d", "l", "e", "e", "e", "n", 
    "g", "g", "a", "g", "v", "y", "s", "a", "s", "l", "k", "k", 
    "n", "y", "i", "l", "q", "h", "d", "e", "w", "k", "e", "d", 
    "i", "m", "p", "e", "i", "l", "d", "g", "h", "n", "v", "a", 
    "d", "f", "i", "d", "p", "d", "i", "l", "q", "r", "l", "a", 
    "e", "l", "e", "r", "e", "e", "g", "i", "r", "e", "a", "g", 
    "v", "e", "e", "a", "d", "m", "e", "m", "d", "i", "e", "k", 
    "l", "s", "d", "e", "q", "l", "k", "q", "l", "s", "e", "i", 
    "r", "k", "k", "k", "a", "i", "l", "i", "k", "n", "h", "r", 
    "l", "k", "k", "t", "v", "a", "q", "n", "r", "s", "t", "v", 
    "p", "r", "k", "f", "d", "k", "d", "k", "k", "y", "t", "t", 
    "k", "r", "m", "g", "r", "e", "l", "s", "a", "m", "g", "l", 
    "d", "p", "s", "s", "a", "m", "d", "r", "a", "r", "s", "k", 
    "s", "r", "g", "r", "k", "r", "d", "r", "s", "e", "d", "a", 
    "g", "n", "d", "a", "m", "d", "v", "d", "d", "e", "q", "q", 
    "s", "n", "k", "k", "q", "r", "v", "r", "s", "k", "s", "r", 
    "a", "m", "s", "i", "s", "r", "s", "q", "s", "r", "p", "p", 
    "a", "h", "e", "v", "v", "p", "g", "e", "g", "f", "k", "d", 
    "s", "t", "q", "k", "l", "s", "a", "i", "k", "i", "s", "n", 
    "k", "s", "h", "k", "k", "r", "d", "k", "n", "a", "r", "r", 
    "g", "e", "a", "d", "r", "v", "i", "p", "t", "l", "r", "p", 
    "k", "h", "l", "f", "s", "g", "k", "r", "g", "k", "g", "k", 
    "t", "d", "r", "r"), name = "AT1G50920.1", Annot = ">AT1G50920.1 | Symbols:  | Nucleolar GTP-binding protein | chr1:18870555-18872570 FORWARD LENGTH=671", class = "SeqFastadna"), 
    AT1G36960.1 = structure(c("m", "t", "r", "l", "l", "p", "y", 
    "k", "g", "g", "d", "f", "l", "g", "p", "d", "f", "l", "t", 
    "f", "i", "d", "l", "c", "v", "q", "v", "r", "g", "i", "p", 
    "l", "p", "y", "l", "s", "e", "l", "t", "v", "s", "f", "i", 
    "a", "g", "t", "l", "g", "p", "i", "l", "e", "m", "e", "f", 
    "n", "q", "d", "t", "s", "t", "y", "v", "a", "f", "i", "r", 
    "v", "k", "i", "r", "l", "v", "f", "i", "d", "r", "l", "r", 
    "f", "f", "r", "r", "e", "e", "a", "a", "a", "s", "n", "t", 
    "i", "t", "d", "q", "t", "h", "m", "t", "s", "s", "n", "s", 
    "s", "d", "i", "s", "p", "a", "s", "p", "i", "s", "q", "p", 
    "p", "l", "p", "a", "s", "l", "p", "s", "h", "d", "s", "y", 
    "f", "d", "a", "g", "i", "q", "a", "s", "r", "l", "v", "n", 
    "p", "r", "a", "i", "s", "q", "h", "h", "f", "s", "s", "s", 
    "y", "s", "d", "f", "k", "g", "k", "e", "k", "a", "k", "i", 
    "k", "i", "g", "e", "c", "s", "k", "r", "k", "k", "d", "k", 
    "q", "v", "d", "s", "g", "t"), name = "AT1G36960.1", Annot = ">AT1G36960.1 | Symbols:  | unknown protein; BEST Arabidopsis thaliana protein match is: unknown protein (TAIR:AT1G48095.1); Has 54 Blast hits to 54 proteins in 2 species: Archae - 0; Bacteria - 0; Metazoa - 0; Fungi - 0; Plants - 54; Viruses - 0; Other Eukaryotes - 0 (source: NCBI BLink). | chr1:14014796-14015508 FORWARD LENGTH=181", class = "SeqFastadna"), 
    AT1G44020.1 = structure(c("m", "d", "s", "e", "s", "e", "s", 
    "k", "l", "i", "s", "f", "i", "s", "q", "l", "v", "s", "r", 
    "n", "n", "t", "d", "s", "e", "n", "i", "s", "c", "m", "i", 
    "q", "t", "i", "s", "l", "v", "s", "s", "m", "d", "l", "k", 
    "s", "q", "p", "k", "p", "e", "s", "k", "l", "m", "s", "l", 
    "v", "t", "q", "t", "i", "s", "l", "f", "n", "s", "m", "d", 
    "l", "s", "s", "q", "p", "e", "p", "l", "r", "k", "l", "i", 
    "s", "l", "i", "i", "e", "k", "l", "s", "h", "l", "n", "s", 
    "v", "d", "s", "d", "y", "e", "p", "k", "p", "d", "s", "e", 
    "f", "m", "s", "t", "f", "y", "e", "t", "y", "k", "l", "q", 
    "p", "r", "p", "e", "i", "i", "s", "i", "i", "h", "q", "i", 
    "y", "s", "l", "f", "i", "s", "t", "d", "t", "n", "k", "v", 
    "i", "t", "l", "v", "r", "s", "l", "d", "l", "d", "y", "s", 
    "e", "p", "e", "p", "e", "s", "e", "f", "i", "s", "v", "v", 
    "a", "v", "v", "k", "q", "i", "m", "s", "f", "a", "n", "s", 
    "i", "s", "n", "s", "e", "p", "e", "w", "q", "f", "i", "s", 
    "s", "m", "t", "e", "m", "i", "r", "l", "i", "s", "s", "i", 
    "d", "l", "e", "p", "e", "w", "e", "p", "p", "m", "q", "l", 
    "v", "a", "l", "f", "t", "h", "t", "f", "s", "l", "l", "y", 
    "y", "l", "d", "r", "d", "s", "e", "l", "y", "t", "l", "i", 
    "a", "q", "i", "i", "f", "i", "i", "d", "y", "t", "d", "s", 
    "e", "p", "e", "s", "e", "w", "g", "l", "d", "q", "l", "m", 
    "s", "l", "s", "p", "q", "w", "k", "v", "q", "l", "v", "q", 
    "g", "k", "f", "h", "v", "t", "g", "k", "i", "e", "r", "k", 
    "n", "k", "e", "k", "g", "k", "c", "q", "p", "e", "n", "r", 
    "h", "r", "l", "y", "l", "a", "k", "g", "e", "e", "a", "s", 
    "h", "f", "i", "c", "k", "d", "c", "n", "g", "e", "d", "h", 
    "i", "e", "c", "e", "k", "t", "p", "v", "e", "v", "k", "h", 
    "l", "l", "h", "p", "k", "h", "s", "l", "q", "l", "v", "s", 
    "q", "k", "s", "s", "i", "i", "q", "t", "r", "k", "c", "f", 
    "c", "c", "d", "e", "d", "l", "k", "k", "i", "f", "y", "y", 
    "c", "t", "g", "c", "d", "y", "d", "m", "n", "i", "a", "c", 
    "a", "e", "k", "p", "p", "v", "l", "f", "i", "d", "r", "p", 
    "k", "w", "h", "a", "d", "t", "l", "a", "l", "f", "q", "r", 
    "q", "a", "f", "l", "t", "c", "n", "v", "c", "a", "v", "a", 
    "d", "s", "s", "s", "p", "i", "y", "m", "c", "p", "p", "c", 
    "d", "f", "v", "v", "h", "q", "r", "c", "t", "g", "l", "p", 
    "r", "v", "i", "r", "i", "s", "r", "h", "r", "h", "r", "i", 
    "s", "f", "t", "t", "s", "f", "d", "e", "g", "d", "w", "s", 
    "c", "g", "v", "c", "r", "r", "k", "i", "d", "n", "d", "y", 
    "g", "g", "f", "s", "c", "i", "k", "d", "g", "c", "s", "y", 
    "a", "a", "h", "s", "r", "c", "a", "t", "q", "k", "n", "v", 
    "w", "d", "g", "i", "d", "l", "e", "g", "v", "p", "e", "e", 
    "i", "e", "e", "e", "e", "v", "e", "p", "f", "v", "t", "i", 
    "s", "k", "g", "v", "i", "h", "h", "f", "s", "h", "q", "n", 
    "h", "h", "l", "r", "l", "d", "e", "n", "r", "d", "r", "i", 
    "y", "d", "e", "n", "k", "l", "c", "q", "a", "c", "i", "m", 
    "p", "i", "y", "f", "g", "n", "f", "f", "s", "c", "m", "q", 
    "c", "d", "y", "i", "l", "q"), name = "AT1G44020.1", Annot = ">AT1G44020.1 | Symbols:  | Cysteine/Histidine-rich C1 domain family protein | chr1:16716692-16718656 REVERSE LENGTH=577", class = "SeqFastadna"), 
    AT1G15970.1 = structure(c("m", "s", "v", "p", "p", "r", "f", 
    "r", "s", "v", "n", "s", "d", "e", "r", "e", "f", "r", "s", 
    "v", "l", "g", "p", "t", "g", "n", "k", "l", "q", "r", "k", 
    "p", "p", "g", "m", "k", "l", "e", "k", "p", "m", "m", "e", 
    "k", "t", "i", "i", "d", "s", "k", "d", "e", "k", "a", "k", 
    "k", "p", "t", "t", "p", "a", "s", "p", "r", "t", "t", "l", 
    "k", "q", "c", "s", "s", "l", "c", "s", "s", "i", "l", "r", 
    "k", "n", "s", "a", "s", "m", "t", "a", "s", "y", "s", "s", 
    "d", "a", "s", "s", "s", "c", "e", "s", "s", "p", "l", "s", 
    "v", "a", "s", "s", "s", "s", "c", "k", "k", "v", "v", "r", 
    "r", "s", "g", "s", "v", "s", "s", "t", "r", "k", "l", "s", 
    "v", "g", "k", "e", "e", "e", "k", "v", "s", "g", "d", "c", 
    "f", "a", "d", "g", "r", "k", "r", "c", "a", "w", "i", "t", 
    "p", "k", "a", "d", "p", "c", "y", "v", "a", "f", "h", "d", 
    "e", "e", "w", "g", "v", "p", "v", "h", "d", "d", "k", "k", 
    "l", "f", "e", "l", "l", "c", "l", "s", "g", "a", "l", "a", 
    "e", "l", "s", "w", "t", "d", "i", "l", "s", "r", "r", "h", 
    "i", "l", "r", "e", "v", "f", "m", "d", "f", "d", "p", "v", 
    "a", "v", "a", "e", "l", "n", "d", "k", "k", "l", "t", "a", 
    "p", "g", "t", "a", "a", "i", "s", "l", "l", "s", "e", "v", 
    "k", "i", "r", "s", "i", "l", "d", "n", "s", "r", "h", "v", 
    "r", "k", "i", "i", "a", "e", "c", "g", "s", "l", "k", "k", 
    "y", "m", "w", "n", "f", "v", "n", "n", "k", "p", "t", "q", 
    "s", "q", "f", "r", "y", "q", "r", "q", "v", "p", "v", "k", 
    "t", "s", "k", "a", "e", "f", "i", "s", "k", "d", "l", "v", 
    "r", "r", "g", "f", "r", "s", "v", "s", "p", "t", "v", "i", 
    "y", "s", "f", "m", "q", "a", "a", "g", "l", "t", "n", "d", 
    "h", "l", "i", "g", "c", "f", "r", "y", "q", "d", "c", "c", 
    "v", "d", "a", "e", "t", "t", "t", "t", "t", "k", "a", "k", 
    "k", "k", "n", "e", "r", "e", "s", "d", "k"), name = "AT1G15970.1", Annot = ">AT1G15970.1 | Symbols:  | DNA glycosylase superfamily protein | chr1:5486544-5488494 REVERSE LENGTH=352", class = "SeqFastadna"), 
    AT1G73440.1 = structure(c("m", "a", "r", "g", "e", "s", "e", 
    "g", "e", "s", "s", "g", "s", "e", "r", "e", "s", "s", "s", 
    "s", "s", "s", "g", "n", "e", "s", "e", "p", "t", "k", "g", 
    "t", "i", "s", "k", "y", "e", "k", "q", "r", "l", "s", "r", 
    "i", "a", "e", "n", "k", "a", "r", "l", "d", "a", "l", "g", 
    "i", "s", "k", "a", "a", "k", "a", "l", "l", "s", "p", "s", 
    "p", "v", "s", "k", "k", "r", "r", "v", "k", "r", "n", "s", 
    "g", "e", "e", "d", "d", "d", "y", "t", "p", "v", "i", "a", 
    "d", "g", "d", "g", "d", "e", "d", "d", "d", "e", "v", "e", 
    "e", "i", "d", "e", "d", "e", "e", "f", "l", "c", "k", "r", 
    "k", "n", "k", "s", "s", "a", "s", "k", "r", "k", "v", "s", 
    "s", "r", "k", "i", "l", "n", "t", "s", "v", "s", "l", "g", 
    "e", "d", "d", "d", "d", "l", "d", "k", "a", "i", "a", "l", 
    "s", "l", "q", "g", "s", "v", "a", "g", "s", "d", "k", "e", 
    "a", "a", "t", "m", "k", "k", "k", "r", "p", "e", "l", "m", 
    "s", "k", "t", "q", "m", "t", "q", "d", "e", "l", "v", "m", 
    "y", "f", "c", "q", "f", "d", "e", "g", "g", "k", "g", "f", 
    "i", "t", "l", "r", "d", "v", "a", "k", "m", "a", "t", "v", 
    "h", "d", "f", "t", "w", "t", "e", "e", "e", "l", "q", "d", 
    "m", "i", "r", "c", "f", "d", "m", "d", "k", "d", "g", "k", 
    "l", "s", "l", "d", "e", "f", "r", "k", "i", "v", "s", "r", 
    "c", "r", "m", "l", "k", "g", "s"), name = "AT1G73440.1", Annot = ">AT1G73440.1 | Symbols:  | calmodulin-related | chr1:27611418-27612182 FORWARD LENGTH=254", class = "SeqFastadna")), .Names = c("AT1G51370.2", 
"AT1G50920.1", "AT1G36960.1", "AT1G44020.1", "AT1G15970.1", "AT1G73440.1"
))

Я хотел бы преобразовать этот список во фрейм данных и сохранить только две информации.В первом столбце я хотел бы иметь имя гена (AT ~), а во втором столбце строка, содержащая последовательность этого потенциального гена.Остальная информация может быть пропущена.

Каков наиболее эффективный способ преобразования этого списка во фрейм данных?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...