Как получить все функции в диапазоне от файла GFF3 в Perl? - PullRequest
3 голосов
/ 08 сентября 2010

Я хотел бы написать функцию Perl, которая получает имя файла GFF3 и диапазон (т.е. 100000 .. 2000000). и возвращает ссылку на массив, содержащий все имена / присоединения генов, найденных в этом диапазоне.

Полагаю, использование bioperl будет иметь смысл, но у меня очень мало опыта с этим. Я могу написать скрипт, который самостоятельно анализирует GFF3, но если использование bioperl (или другого пакета) не слишком сложно - я бы лучше использовал их код.

Ответы [ 3 ]

3 голосов
/ 09 сентября 2010
use Bio::Tools::GFF;

my $range_start = 100000;
my $range_end   = 200000;

my @features_in_range = ( );


my $gffio = Bio::Tools::GFF->new(-file => $gff_file, -gff_version => 3);

while (my $feature = $gffio->next_feature()) {

    ## What about features that are not contained within the coordinate range but
    ## do overlap it?  Such features won't be caught by this check.            
    if (
        ($feature->start() >= $range_start)
        &&
        ($feature->end()   <= $range_end)
       ) {

        push @features_in_range, $feature;

    }

}

$gffio->close();

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Наивная реализация.Я просто ударился об этом, у него не было никаких испытаний.Я даже не буду гарантировать, что он скомпилируется.

2 голосов
/ 08 сентября 2010

Вы хотите использовать BioPerl для этого, возможно, используя модуль Bio::Tools::GFF.

Вы действительно должны спросить в списке рассылки BioPerl . Это очень дружелюбный и подписчики очень хорошо осведомлены - они определенно смогут помочь вам. И как только вы получите ответ (и если вы не получите его здесь первым), я предлагаю ответить на ваш собственный вопрос здесь с ответом, чтобы мы все могли извлечь выгоду!

0 голосов
/ 09 сентября 2010

Следующая функция берет хэш целей и диапазонов и возвращает функцию, которая будет перебирать все цели, перекрывающие любой из диапазонов. Цели должны быть ссылкой на массив ссылок:

my $targets =    
[
  [
    $start,
    $end,
  ],
  ...,
]

Диапазоны должны быть ссылкой на массив хэшей:

my $ranges =
[
  {
    seqname   => $seqname,
    source    => $source,
    feature   => $feature,
    start     => $start,
    end       => $end,
    score     => $score,
    strand    => $strand,
    frame     => $frame,
    attribute => $attribute,
  },
  ...,
]

Конечно, вы можете просто пройти одну цель.

my $brs_iterator
= binary_range_search( targets => $targets, ranges => $ranges );

while ( my $gff_line = $brs_iterator->() ) {
   # do stuff
}

sub binary_range_search {
    my %options = @_;

    my $targets = $options{targets}  || croak 'Need a targets parameter';
    my $ranges  = $options{ranges} || croak 'Need a ranges parameter';

    my ( $low, $high ) = ( 0, $#{$ranges} );
    my @iterators = ();

TARGET:
    for my $range (@$targets) {

    RANGE_CHECK:
        while ( $low <= $high ) {

            my $try = int( ( $low + $high ) / 2 );

            $low = $try + 1, next RANGE_CHECK
                if $ranges->[$try]{end} < $range->[0];
            $high = $try - 1, next RANGE_CHECK
                if $ranges->[$try]{start} > $range->[1];

            my ( $down, $up ) = ($try) x 2;
            my %seen = ();

            my $brs_iterator = sub {

                if (    $ranges->[ $up + 1 ]{end} >= $range->[0]
                    and $ranges->[ $up + 1 ]{start} <= $range->[1]
                    and !exists $seen{ $up + 1 } )
                {
                    $seen{ $up + 1 } = undef;
                    return $ranges->[ ++$up ];
                }
                elsif ( $ranges->[ $down - 1 ]{end} >= $range->[0]
                    and $ranges->[ $down - 1 ]{start} <= $range->[1]
                    and !exists $seen{ $down - 1 }
                    and $down > 0 )
                {
                    $seen{ $down - 1 } = undef;
                    return $ranges->[ --$down ];
                }
                elsif ( !exists $seen{$try} ) {
                    $seen{$try} = undef;
                    return $ranges->[$try];
                }
                else {
                    return;
                }
            };
            push @iterators, $brs_iterator;
            next TARGET;
        }
    }

# In scalar context return master iterator that iterates over the list of range iterators.
# In list context returns a list of range iterators.
    return wantarray
        ? @iterators
        : sub {
        while (@iterators) {
            if ( my $range = $iterators[0]->() ) {
                return $range;
            }
            shift @iterators;
        }
        return;
        };
}
...