Из файла FASTA извлеките только записи с указанной таксономией - PullRequest
0 голосов
/ 28 марта 2019

Я хотел бы извлечь все записи из файла фаста, которые относятся к таксономии человека, и сделать эти записи в новом меньшем файле фаста.Я пытаюсь использовать R, но я не уверен, как это сделать.

Ниже приведены две записи из файла fasta:

>sp|Q4R572|1433B_MACFA 14-3-3 protein beta/alpha OS=Homo sapiens GN=YWHAB PE=2 SV=3
MTMDKSELVQKAKLAEQAERYDDMAAAMKAVTEQGHELSNEERNLLSVAYKNVVGARRSS
WRVISSIEQKTERNEKKQQMGKEYREKIEAELQDICNDVLELLDKYLIPNATQPESKVFY
LKMKGDYFRYLSEVASGDNKQTTVSNSQQAYQEAFEISKKEMQPTHPIRLGLALNFSVFY
YEILNSPEKACSLAKTAFDEAIAELDTLNEESYKDSTLIMQLLRDNLTLWTSENQGDEGD
AGEGEN

>sp|Q9CQV8|1433B_MOUSE 14-3-3 protein beta/alpha OS=Mus musculus GN=Ywhab PE=1 SV=3
MTMDKSELVQKAKLAEQAERYDDMAAAMKAVTEQGHELSNEERNLLSVAYKNVVGARRSS
WRVISSIEQKTERNEKKQQMGKEYREKIEAELQDICNDVLELLDKYLILNATQAESKVFY
LKMKGDYFRYLSEVASGENKQTTVSNSQQAYQEAFEISKKEMQPTHPIRLGLALNFSVFY
YEILNSPEKACSLAKTAFDEAIAELDTLNEESYKDSTLIMQLLRDNLTLWTSENQGDEGD
AGEGEN

1 Ответ

2 голосов
/ 28 марта 2019

Если вы хотите сделать это в R, есть функции readAAstringset и readFASTA из BioStrings пакета, а также read.fasta из seqinr, которые позволят вам прочитать файл в R. Тогда вы можете обрежьте его так, как вам нравится, и выведите его (оба пакета также имеют функции вывода).

Вы можете найти информацию об этих функциях и пакетах здесь и здесь .

Поскольку fasta - это, в конечном счете, текстовый файл, вы также можете сделать это с помощью базовых функций R, как описано здесь , но это не рекомендуется.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...