Bcbio-gff Проблема создания файла - PullRequest
1 голос
/ 23 апреля 2020

При создании файла с использованием GFF.write () я получаю новую строку с «примечанием к аннотации» в качестве источника, за которым следует ASCII-кодирование областей последовательности:

##gff-version 3
##sequence-region NC_011594.1 1 16779
NC_011594.1 annotation  remark  1   16779   .   .   .   gff-version=3;sequence-region=%28%27NC_011594.1%27%2C 0%2C 16971%29,%28%27NC_042493.1%27%2C 0%2C 132544852%29, (continues on and on)
NC_011594.1 RefSeq  gene    1   1531    .   +   .   Dbxref=GeneID:7055888;ID=gene-COX1;Name=COX1;gbkey=Gene;gene=COX1;gene_biotype=protein_coding

Любая идея, почему это здесь для чего и как мне этого избежать? Боюсь, это может стать проблемой при использовании его в сторонних программах.

Я импортировал только пакет bcbio-gff, но я считаю, что это часть Bio python, ссылка: https://biopython.org/wiki/GFF_Parsing

1 Ответ

0 голосов
/ 24 апреля 2020

На ваш первый вопрос - «Почему это там?»

  • Я только предполагаю, что по умолчанию автор пакета хотел экспортировать как можно больше информации.

К вашему следующему вопросу - «Как мне этого избежать?»

  • К сожалению, выключатель выключен. Для меня решением было удалить любые аннотации из экспортированных последовательностей. (т.е. установите атрибут annotations в пустой словарь перед вызовом GFF.write().

Пример:

from Bio import SeqIO
from BCBio import GFF

g = SeqIO.read('NC_003888.3.gb','gb')

g.annotations = {}

with open('t2.gff', 'w') as f:
    GFF.write([g], f)

Заголовок выходного файла - нет # annotation remark

head t2.gff 
##gff-version 3
##sequence-region NC_003888.3 1 8667507
NC_003888.3 feature source  1   8667507 ... removed for clarity ....
...