Удалить базовые пары - PullRequest
       5

Удалить базовые пары

0 голосов
/ 01 августа 2011

Мне нужно удалить несколько пар оснований из файла fasta. Это пример моего входного файла

>\>NODE_1
GTTGGCCGAGCCCCAGGACGCGTGGTTGTTGAACCAGATCAGGTCCGGGCTCCACTGCAC
GTAGTCCTCGTTGGACAGCAGCGGGGCGTACGAGGCCAGCTTGACCACGTCGGCGTTGCG
CTCGAGGCCGGTCATGAACGCGGCCTCGGCGAGGGCGTTCTTCCAGGCGTTGCCCT  
\>NODE_2 
GTTGGCCGAGCCCCAGGACGCGTGGTTGTTGAACCAGATCAGGTCCGGGCTCCACTGCAC
GTAGTCCTCGTTGGACAGCAGCGGGGCGTACGAGGCCAGCTTGACCACGTCGGCGTTGCG
CTCGAGGCCGGTCATGAACGCGGCCTCGGCGA

и у меня есть 20 таких узлов в моем файле. Моя цель - сократить файл как это

>\>NODE_1
GTTGGCCGAGCCCCAGGACGCGTGGTTGTTGAACCAGATCAGGTCCGGGCTCCACTGCAC
GTAGTCCTCGTTGGACAGCAGCGGGGCGT  
\>NODE_2 
GTTGGCCGAGCCCCAGGACGCGTGGTTGTTGAACCAGATCAGGTCCGGGCTCCACTGCAC
GTAGTCCTCGTTGGACAGC

Прямо сейчас я просто могу читать файлы в R.

x<-readLines("input file.fa", n = -1L, ok = TRUE, warn = TRUE)

Можете ли вы помочь мне, как я могу это сделать?

1 Ответ

4 голосов
/ 01 августа 2011

Для решения base-R используйте substr. Тем не менее, лучшая идея состоит в том, чтобы использовать функции Biostrings 'Биокондуктора, то есть

readFASTA("input.fa")->x
shortX<-subseq(x,start=1,width=100)
writeFASTA(shortX,"output.fa")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...