Как читать из нескольких файлов FASTA с помощью R? - PullRequest
1 голос
/ 17 февраля 2012

У меня следующая проблема: у меня есть 10 различных файлов FASTA с тысячами последовательностей внутри каждого файла. Я хотел бы прочитать из каждого файла Fasta всю последовательность, а затем (с вставкой) создать один большой файл со всеми последовательностями.

У меня следующий вопрос: как я могу читать из разных файлов одновременно?

Я пытался:

a<-list.files()

, а затем

for (x in a) { temp<-read.table(x) seq<-summary(temp) print (seq)

но это не работает должным образом. Я попробовал также команду read.fasta, но она выдает мне странный вывод (не вся последовательность)

Большое спасибо за помощь, буду очень признателен!

Fabio

PS. Я начал работать с R всего неделю назад ... так что наберитесь терпения, даже если это глупый вопрос!

1 Ответ

2 голосов
/ 17 февраля 2012

Биокондуктор имеет множество пакетов для работы с последовательностями ДНК.Установите пакет ShortRead с

source("http://bioconductor.org/biocLite.R")
biocLite("ShortRead")

Загрузите библиотеку и обратитесь к странице справки для readFasta

library(ShortRead)
?readFasta

Найдите шаблон (например, list.files), который соответствует требуемым файлам fastaчитать и читать все файлы fastta, соответствующие шаблону, в один объект

patt <- "fasta$"
fasta <- readFasta("/my/directory/containing/fasta/files", patt)

Затем записать объект

writeFasta(fasta, "my_destination.fasta")

Но на самом деле R не был бы подходящим инструментом дляобъединение файлов;скорее всего, вы захотите сделать более интересные вещи, некоторые из которых могут быть описаны в виньетках для ShortRead, Biostrings и GenomicRanges

browseVignettes("ShortRead")
browseVignettes("Biostrings")
browseVignettes("GenomicRanges")

Список рассылки Bioconductor - лучшее место, чтобы получитьподдержка пакетов Bioconductor.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...