Как найти положение каждой базы в отформатированной последовательности - PullRequest
0 голосов
/ 28 октября 2011

Помогите, пожалуйста, найти позицию начальной строки в формате, отформатированном в формате Fastta, - 35658014, а конечную позицию - 35657750 в областях 3 и 5 соответственно.

Благодарю вас

1 Ответ

1 голос
/ 28 октября 2011

Вы пытаетесь получить фактический генный код в этих местах? Я не знаю Bio Perl, но если это просто строка, вот что вы можете сделать:

Во-первых, это регулярное выражение удалит мусор из строки:

$seq =~ s/^>*.+\n//;

А этот уберет новые строки

$seq =~ s/\n//g;

Тогда просто используйте обычный perl substr: http://perldoc.perl.org/functions/substr.html

my $section = substr($seq, $start-1, $end-$start);

Предполагается, что ваши начало и конец считают первый элемент как 1.

Конечно, если вы уже используете bioperl (вероятно, так и должно быть), используйте функцию subseq: http://doc.bioperl.org/releases/bioperl-1.0.1/Bio/Seq.html#POD8. На этой странице достаточно информации, чтобы прочитать ее в последовательности FASTA и получить от нее код, основанный на начале и конце.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...