Как я могу извлечь последовательность ДНК, используя скрипт Perl из UCSC, если у меня есть их координаты? - PullRequest
3 голосов
/ 29 апреля 2010

Как я могу извлечь последовательность ДНК, используя скрипт Perl из браузера генома (UCSC), если у меня есть их координаты?

1 Ответ

6 голосов
/ 29 апреля 2010

Вы можете передать запрос последовательности DAS в сценарий Perl, который анализирует элемент XML, содержащий последовательность.

Например, ниже приведен запрос curl сервера DAS UCSC, отбрасывающий стандартную ошибку, переданную в parseSeq.pl:

$ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl

Вывод curl будет XML-документом, содержащим 1000-основную последовательность ДНК из сборки hg19 генома человека. Запрос запрашивает от 10000 до 10999 (помните, что UCSC на основе *1013*) от первой хромосомы. XML будет включать в себя некоторые другие вещи, полезные для регистрации и проверки ошибок.

После передачи XML в сценарий Perl, вы можете использовать модуль Perl XML :: Simple , чтобы быстро разобрать то, что вам нужно.

Чтобы помочь вам начать работу, ваш файл parseSeq.pl может начинаться с:

#!/usr/bin/perl -w                                                                                                                                                                                                                          

use strict;                                                                                                                                                                                                                                 
use XML::Simple;                                                                                                                                                                                                                            
use Data::Dumper;                                                                                                                                                                                                                           

my $xml = new XML::Simple;                                                                                                                                                                                                                  
my $ref = $xml->XMLin('-');                                                                                                                                                                                                                       

print Dumper $ref;

Вывод этого должен дать вам достаточно начала, чтобы вытянуть последовательность ДНК из $ref.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...