Я скачал файл .txt с белковыми последовательностями и загрузил его в R. Я хотел бы преобразовать его так, чтобы attr (, "name") сохранялся как один столбец, а последовательность аминокислот в столбце рядом с ним,Мне не нужно attr ("Annot").Последовательности даже не длинны.Я не знал, как разместить список здесь. Как к нему приблизиться?так вот пример из двух последовательностей:
Это мой список:
structure(list(AT1G51370.2 = structure(c("m", "v", "g", "g",
"k", "k", "k", "t", "k", "i", "c", "d", "k", "v", "s", "h", "e",
"e", "d", "r", "i", "s", "q", "l", "p", "e", "p", "l", "i", "s",
"e", "i", "l", "f", "h", "l", "s", "t", "k", "d", "s", "v", "r",
"t", "s", "a", "l", "s", "t", "k", "w", "r", "y", "l", "w", "q",
"s", "v", "p", "g", "l", "d", "l", "d", "p", "y", "a", "s", "s",
"n", "t", "n", "t", "i", "v", "s", "f", "v", "e", "s", "f", "f",
"d", "s", "h", "r", "d", "s", "w", "i", "r", "k", "l", "r", "l",
"d", "l", "g", "y", "h", "h", "d", "k", "y", "d", "l", "m", "s",
"w", "i", "d", "a", "a", "t", "t", "r", "r", "i", "q", "h", "l",
"d", "v", "h", "c", "f", "h", "d", "n", "k", "i", "p", "l", "s",
"i", "y", "t", "c", "t", "t", "l", "v", "h", "l", "r", "l", "r",
"w", "a", "v", "l", "t", "n", "p", "e", "f", "v", "s", "l", "p",
"c", "l", "k", "i", "m", "h", "f", "e", "n", "v", "s", "y", "p",
"n", "e", "t", "t", "l", "q", "k", "l", "i", "s", "g", "s", "p",
"v", "l", "e", "e", "l", "i", "l", "f", "s", "t", "m", "y", "p",
"k", "g", "n", "v", "l", "q", "l", "r", "s", "d", "t", "l", "k",
"r", "l", "d", "i", "n", "e", "f", "i", "d", "v", "v", "i", "y",
"a", "p", "l", "l", "q", "c", "l", "r", "a", "k", "m", "y", "s",
"t", "k", "n", "f", "q", "i", "i", "s", "s", "g", "f", "p", "a",
"k", "l", "d", "i", "d", "f", "v", "n", "t", "g", "g", "r", "y",
"q", "k", "k", "k", "v", "i", "e", "d", "i", "l", "i", "d", "i",
"s", "r", "v", "r", "d", "l", "v", "i", "s", "s", "n", "t", "w",
"k", "e", "f", "f", "l", "y", "s", "k", "s", "r", "p", "l", "l",
"q", "f", "r", "y", "i", "s", "h", "l", "n", "a", "r", "f", "y",
"i", "s", "d", "l", "e", "m", "l", "p", "t", "l", "l", "e", "s",
"c", "p", "k", "l", "e", "s", "l", "i", "l", "v", "m", "s", "s",
"f", "n", "p", "s"), name = "AT1G51370.2", Annot = ">AT1G51370.2 | Symbols: | F-box/RNI-like/FBD-like domains-containing protein | chr1:19045615-19046748 FORWARD LENGTH=346", class = "SeqFastadna"),
AT1G50920.1 = structure(c("m", "v", "q", "y", "n", "f", "k",
"r", "i", "t", "v", "v", "p", "n", "g", "k", "e", "f", "v",
"d", "i", "i", "l", "s", "r", "t", "q", "r", "q", "t", "p",
"t", "v", "v", "h", "k", "g", "y", "k", "i", "n", "r", "l",
"r", "q", "f", "y", "m", "r", "k", "v", "k", "y", "t", "q",
"t", "n", "f", "h", "a", "k", "l", "s", "a", "i", "i", "d",
"e", "f", "p", "r", "l", "e", "q", "i", "h", "p", "f", "y",
"g", "d", "l", "l", "h", "v", "l", "y", "n", "k", "d", "h",
"y", "k", "l", "a", "l", "g", "q", "v", "n", "t", "a", "r",
"n", "l", "i", "s", "k", "i", "s", "k", "d", "y", "v", "k",
"l", "l", "k", "y", "g", "d", "s", "l", "y", "r", "c", "k",
"c", "l", "k", "v", "a", "a", "l", "g", "r", "m", "c", "t",
"v", "l", "k", "r", "i", "t", "p", "s", "l", "a", "y", "l",
"e", "q", "i", "r", "q", "h", "m", "a", "r", "l", "p", "s",
"i", "d", "p", "n", "t", "r", "t", "v", "l", "i", "c", "g",
"y", "p", "n", "v", "g", "k", "s", "s", "f", "m", "n", "k",
"v", "t", "r", "a", "d", "v", "d", "v", "q", "p", "y", "a",
"f", "t", "t", "k", "s", "l", "f", "v", "g", "h", "t", "d",
"y", "k", "y", "l", "r", "y", "q", "v", "i", "d", "t", "p",
"g", "i", "l", "d", "r", "p", "f", "e", "d", "r", "n", "i",
"i", "e", "m", "c", "s", "i", "t", "a", "l", "a", "h", "l",
"r", "a", "a", "v", "l", "f", "f", "l", "d", "i", "s", "g",
"s", "c", "g", "y", "t", "i", "a", "q", "q", "a", "a", "l",
"f", "h", "s", "i", "k", "s", "l", "f", "m", "n", "k", "p",
"l", "v", "i", "v", "c", "n", "k", "t", "d", "l", "m", "p",
"m", "e", "n", "i", "s", "e", "e", "d", "r", "k", "l", "i",
"e", "e", "m", "k", "s", "e", "a", "m", "k", "t", "a", "m",
"g", "a", "s", "e", "e", "q", "v", "l", "l", "k", "m", "s",
"t", "l", "t", "d", "e", "g", "v", "m", "s", "v", "k", "n",
"a", "a", "c", "e", "r", "l", "l", "d", "q", "r", "v", "e",
"a", "k", "m", "k", "s", "k", "k", "i", "n", "d", "h", "l",
"n", "r", "f", "h", "v", "a", "i", "p", "k", "p", "r", "d",
"s", "i", "e", "r", "l", "p", "c", "i", "p", "q", "v", "v",
"l", "e", "a", "k", "a", "k", "e", "a", "a", "a", "m", "e",
"k", "r", "k", "t", "e", "k", "d", "l", "e", "e", "e", "n",
"g", "g", "a", "g", "v", "y", "s", "a", "s", "l", "k", "k",
"n", "y", "i", "l", "q", "h", "d", "e", "w", "k", "e", "d",
"i", "m", "p", "e", "i", "l", "d", "g", "h", "n", "v", "a",
"d", "f", "i", "d", "p", "d", "i", "l", "q", "r", "l", "a",
"e", "l", "e", "r", "e", "e", "g", "i", "r", "e", "a", "g",
"v", "e", "e", "a", "d", "m", "e", "m", "d", "i", "e", "k",
"l", "s", "d", "e", "q", "l", "k", "q", "l", "s", "e", "i",
"r", "k", "k", "k", "a", "i", "l", "i", "k", "n", "h", "r",
"l", "k", "k", "t", "v", "a", "q", "n", "r", "s", "t", "v",
"p", "r", "k", "f", "d", "k", "d", "k", "k", "y", "t", "t",
"k", "r", "m", "g", "r", "e", "l", "s", "a", "m", "g", "l",
"d", "p", "s", "s", "a", "m", "d", "r", "a", "r", "s", "k",
"s", "r", "g", "r", "k", "r", "d", "r", "s", "e", "d", "a",
"g", "n", "d", "a", "m", "d", "v", "d", "d", "e", "q", "q",
"s", "n", "k", "k", "q", "r", "v", "r", "s", "k", "s", "r",
"a", "m", "s", "i", "s", "r", "s", "q", "s", "r", "p", "p",
"a", "h", "e", "v", "v", "p", "g", "e", "g", "f", "k", "d",
"s", "t", "q", "k", "l", "s", "a", "i", "k", "i", "s", "n",
"k", "s", "h", "k", "k", "r", "d", "k", "n", "a", "r", "r",
"g", "e", "a", "d", "r", "v", "i", "p", "t", "l", "r", "p",
"k", "h", "l", "f", "s", "g", "k", "r", "g", "k", "g", "k",
"t", "d", "r", "r"), name = "AT1G50920.1", Annot = ">AT1G50920.1 | Symbols: | Nucleolar GTP-binding protein | chr1:18870555-18872570 FORWARD LENGTH=671", class = "SeqFastadna"),
AT1G36960.1 = structure(c("m", "t", "r", "l", "l", "p", "y",
"k", "g", "g", "d", "f", "l", "g", "p", "d", "f", "l", "t",
"f", "i", "d", "l", "c", "v", "q", "v", "r", "g", "i", "p",
"l", "p", "y", "l", "s", "e", "l", "t", "v", "s", "f", "i",
"a", "g", "t", "l", "g", "p", "i", "l", "e", "m", "e", "f",
"n", "q", "d", "t", "s", "t", "y", "v", "a", "f", "i", "r",
"v", "k", "i", "r", "l", "v", "f", "i", "d", "r", "l", "r",
"f", "f", "r", "r", "e", "e", "a", "a", "a", "s", "n", "t",
"i", "t", "d", "q", "t", "h", "m", "t", "s", "s", "n", "s",
"s", "d", "i", "s", "p", "a", "s", "p", "i", "s", "q", "p",
"p", "l", "p", "a", "s", "l", "p", "s", "h", "d", "s", "y",
"f", "d", "a", "g", "i", "q", "a", "s", "r", "l", "v", "n",
"p", "r", "a", "i", "s", "q", "h", "h", "f", "s", "s", "s",
"y", "s", "d", "f", "k", "g", "k", "e", "k", "a", "k", "i",
"k", "i", "g", "e", "c", "s", "k", "r", "k", "k", "d", "k",
"q", "v", "d", "s", "g", "t"), name = "AT1G36960.1", Annot = ">AT1G36960.1 | Symbols: | unknown protein; BEST Arabidopsis thaliana protein match is: unknown protein (TAIR:AT1G48095.1); Has 54 Blast hits to 54 proteins in 2 species: Archae - 0; Bacteria - 0; Metazoa - 0; Fungi - 0; Plants - 54; Viruses - 0; Other Eukaryotes - 0 (source: NCBI BLink). | chr1:14014796-14015508 FORWARD LENGTH=181", class = "SeqFastadna"),
AT1G44020.1 = structure(c("m", "d", "s", "e", "s", "e", "s",
"k", "l", "i", "s", "f", "i", "s", "q", "l", "v", "s", "r",
"n", "n", "t", "d", "s", "e", "n", "i", "s", "c", "m", "i",
"q", "t", "i", "s", "l", "v", "s", "s", "m", "d", "l", "k",
"s", "q", "p", "k", "p", "e", "s", "k", "l", "m", "s", "l",
"v", "t", "q", "t", "i", "s", "l", "f", "n", "s", "m", "d",
"l", "s", "s", "q", "p", "e", "p", "l", "r", "k", "l", "i",
"s", "l", "i", "i", "e", "k", "l", "s", "h", "l", "n", "s",
"v", "d", "s", "d", "y", "e", "p", "k", "p", "d", "s", "e",
"f", "m", "s", "t", "f", "y", "e", "t", "y", "k", "l", "q",
"p", "r", "p", "e", "i", "i", "s", "i", "i", "h", "q", "i",
"y", "s", "l", "f", "i", "s", "t", "d", "t", "n", "k", "v",
"i", "t", "l", "v", "r", "s", "l", "d", "l", "d", "y", "s",
"e", "p", "e", "p", "e", "s", "e", "f", "i", "s", "v", "v",
"a", "v", "v", "k", "q", "i", "m", "s", "f", "a", "n", "s",
"i", "s", "n", "s", "e", "p", "e", "w", "q", "f", "i", "s",
"s", "m", "t", "e", "m", "i", "r", "l", "i", "s", "s", "i",
"d", "l", "e", "p", "e", "w", "e", "p", "p", "m", "q", "l",
"v", "a", "l", "f", "t", "h", "t", "f", "s", "l", "l", "y",
"y", "l", "d", "r", "d", "s", "e", "l", "y", "t", "l", "i",
"a", "q", "i", "i", "f", "i", "i", "d", "y", "t", "d", "s",
"e", "p", "e", "s", "e", "w", "g", "l", "d", "q", "l", "m",
"s", "l", "s", "p", "q", "w", "k", "v", "q", "l", "v", "q",
"g", "k", "f", "h", "v", "t", "g", "k", "i", "e", "r", "k",
"n", "k", "e", "k", "g", "k", "c", "q", "p", "e", "n", "r",
"h", "r", "l", "y", "l", "a", "k", "g", "e", "e", "a", "s",
"h", "f", "i", "c", "k", "d", "c", "n", "g", "e", "d", "h",
"i", "e", "c", "e", "k", "t", "p", "v", "e", "v", "k", "h",
"l", "l", "h", "p", "k", "h", "s", "l", "q", "l", "v", "s",
"q", "k", "s", "s", "i", "i", "q", "t", "r", "k", "c", "f",
"c", "c", "d", "e", "d", "l", "k", "k", "i", "f", "y", "y",
"c", "t", "g", "c", "d", "y", "d", "m", "n", "i", "a", "c",
"a", "e", "k", "p", "p", "v", "l", "f", "i", "d", "r", "p",
"k", "w", "h", "a", "d", "t", "l", "a", "l", "f", "q", "r",
"q", "a", "f", "l", "t", "c", "n", "v", "c", "a", "v", "a",
"d", "s", "s", "s", "p", "i", "y", "m", "c", "p", "p", "c",
"d", "f", "v", "v", "h", "q", "r", "c", "t", "g", "l", "p",
"r", "v", "i", "r", "i", "s", "r", "h", "r", "h", "r", "i",
"s", "f", "t", "t", "s", "f", "d", "e", "g", "d", "w", "s",
"c", "g", "v", "c", "r", "r", "k", "i", "d", "n", "d", "y",
"g", "g", "f", "s", "c", "i", "k", "d", "g", "c", "s", "y",
"a", "a", "h", "s", "r", "c", "a", "t", "q", "k", "n", "v",
"w", "d", "g", "i", "d", "l", "e", "g", "v", "p", "e", "e",
"i", "e", "e", "e", "e", "v", "e", "p", "f", "v", "t", "i",
"s", "k", "g", "v", "i", "h", "h", "f", "s", "h", "q", "n",
"h", "h", "l", "r", "l", "d", "e", "n", "r", "d", "r", "i",
"y", "d", "e", "n", "k", "l", "c", "q", "a", "c", "i", "m",
"p", "i", "y", "f", "g", "n", "f", "f", "s", "c", "m", "q",
"c", "d", "y", "i", "l", "q"), name = "AT1G44020.1", Annot = ">AT1G44020.1 | Symbols: | Cysteine/Histidine-rich C1 domain family protein | chr1:16716692-16718656 REVERSE LENGTH=577", class = "SeqFastadna"),
AT1G15970.1 = structure(c("m", "s", "v", "p", "p", "r", "f",
"r", "s", "v", "n", "s", "d", "e", "r", "e", "f", "r", "s",
"v", "l", "g", "p", "t", "g", "n", "k", "l", "q", "r", "k",
"p", "p", "g", "m", "k", "l", "e", "k", "p", "m", "m", "e",
"k", "t", "i", "i", "d", "s", "k", "d", "e", "k", "a", "k",
"k", "p", "t", "t", "p", "a", "s", "p", "r", "t", "t", "l",
"k", "q", "c", "s", "s", "l", "c", "s", "s", "i", "l", "r",
"k", "n", "s", "a", "s", "m", "t", "a", "s", "y", "s", "s",
"d", "a", "s", "s", "s", "c", "e", "s", "s", "p", "l", "s",
"v", "a", "s", "s", "s", "s", "c", "k", "k", "v", "v", "r",
"r", "s", "g", "s", "v", "s", "s", "t", "r", "k", "l", "s",
"v", "g", "k", "e", "e", "e", "k", "v", "s", "g", "d", "c",
"f", "a", "d", "g", "r", "k", "r", "c", "a", "w", "i", "t",
"p", "k", "a", "d", "p", "c", "y", "v", "a", "f", "h", "d",
"e", "e", "w", "g", "v", "p", "v", "h", "d", "d", "k", "k",
"l", "f", "e", "l", "l", "c", "l", "s", "g", "a", "l", "a",
"e", "l", "s", "w", "t", "d", "i", "l", "s", "r", "r", "h",
"i", "l", "r", "e", "v", "f", "m", "d", "f", "d", "p", "v",
"a", "v", "a", "e", "l", "n", "d", "k", "k", "l", "t", "a",
"p", "g", "t", "a", "a", "i", "s", "l", "l", "s", "e", "v",
"k", "i", "r", "s", "i", "l", "d", "n", "s", "r", "h", "v",
"r", "k", "i", "i", "a", "e", "c", "g", "s", "l", "k", "k",
"y", "m", "w", "n", "f", "v", "n", "n", "k", "p", "t", "q",
"s", "q", "f", "r", "y", "q", "r", "q", "v", "p", "v", "k",
"t", "s", "k", "a", "e", "f", "i", "s", "k", "d", "l", "v",
"r", "r", "g", "f", "r", "s", "v", "s", "p", "t", "v", "i",
"y", "s", "f", "m", "q", "a", "a", "g", "l", "t", "n", "d",
"h", "l", "i", "g", "c", "f", "r", "y", "q", "d", "c", "c",
"v", "d", "a", "e", "t", "t", "t", "t", "t", "k", "a", "k",
"k", "k", "n", "e", "r", "e", "s", "d", "k"), name = "AT1G15970.1", Annot = ">AT1G15970.1 | Symbols: | DNA glycosylase superfamily protein | chr1:5486544-5488494 REVERSE LENGTH=352", class = "SeqFastadna"),
AT1G73440.1 = structure(c("m", "a", "r", "g", "e", "s", "e",
"g", "e", "s", "s", "g", "s", "e", "r", "e", "s", "s", "s",
"s", "s", "s", "g", "n", "e", "s", "e", "p", "t", "k", "g",
"t", "i", "s", "k", "y", "e", "k", "q", "r", "l", "s", "r",
"i", "a", "e", "n", "k", "a", "r", "l", "d", "a", "l", "g",
"i", "s", "k", "a", "a", "k", "a", "l", "l", "s", "p", "s",
"p", "v", "s", "k", "k", "r", "r", "v", "k", "r", "n", "s",
"g", "e", "e", "d", "d", "d", "y", "t", "p", "v", "i", "a",
"d", "g", "d", "g", "d", "e", "d", "d", "d", "e", "v", "e",
"e", "i", "d", "e", "d", "e", "e", "f", "l", "c", "k", "r",
"k", "n", "k", "s", "s", "a", "s", "k", "r", "k", "v", "s",
"s", "r", "k", "i", "l", "n", "t", "s", "v", "s", "l", "g",
"e", "d", "d", "d", "d", "l", "d", "k", "a", "i", "a", "l",
"s", "l", "q", "g", "s", "v", "a", "g", "s", "d", "k", "e",
"a", "a", "t", "m", "k", "k", "k", "r", "p", "e", "l", "m",
"s", "k", "t", "q", "m", "t", "q", "d", "e", "l", "v", "m",
"y", "f", "c", "q", "f", "d", "e", "g", "g", "k", "g", "f",
"i", "t", "l", "r", "d", "v", "a", "k", "m", "a", "t", "v",
"h", "d", "f", "t", "w", "t", "e", "e", "e", "l", "q", "d",
"m", "i", "r", "c", "f", "d", "m", "d", "k", "d", "g", "k",
"l", "s", "l", "d", "e", "f", "r", "k", "i", "v", "s", "r",
"c", "r", "m", "l", "k", "g", "s"), name = "AT1G73440.1", Annot = ">AT1G73440.1 | Symbols: | calmodulin-related | chr1:27611418-27612182 FORWARD LENGTH=254", class = "SeqFastadna")), .Names = c("AT1G51370.2",
"AT1G50920.1", "AT1G36960.1", "AT1G44020.1", "AT1G15970.1", "AT1G73440.1"
))
Я хотел бы преобразовать этот список во фрейм данных и сохранить только две информации.В первом столбце я хотел бы иметь имя гена (AT ~), а во втором столбце строка, содержащая последовательность этого потенциального гена.Остальная информация может быть пропущена.
Каков наиболее эффективный способ преобразования этого списка во фрейм данных?