У меня есть решение Biopython для вас здесь. Сначала я предположу, что ваш файл genbank связан с последовательностью генома, затем я предоставлю другое решение, предполагая, что это была последовательность гена. Действительно, было бы полезно узнать, с каким из них вы имеете дело.
Анализ последовательности генома:
Извлеките из файла нестандартного файла genbank из файла:
from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")
Если вам просто нужна необработанная последовательность, то:
rawSequence = record.seq.tostring()
Теперь, возможно, вам нужно имя для этой последовательности, чтобы дать последовательности "> заголовок" перед созданием .fasta. Давайте посмотрим, какие имена пришли с файлом genbank .gb:
nameSequence = record.features[0].qualifiers
Это должно вернуть словарь с различными синонимами всей этой последовательности, аннотированный автором этого файла genbank
Анализ генной последовательности:
Извлечь файл из пользовательского файла genbank из файла по:
from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")
Чтобы получить список необработанных последовательностей для гена / список всех генов, тогда:
rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]
Чтобы получить список имен для каждой последовательности гена (точнее, словарь синонимов для каждого гена)
nameSequenceList = [gene.qualifiers for gene in record.features]