Конвертировать файлы GenBank в FASTA - PullRequest
2 голосов
/ 14 июня 2011

Мне нужно проанализировать предварительный файл GenBank Flatfile.Последовательность еще не была опубликована, поэтому я не могу найти ее по вступлению и загрузить файл FASTA.Я новичок в биоинформатике, поэтому кто-то может показать мне, где я могу найти скрипт BioPerl или BioPython, чтобы сделать это сам?Спасибо!

Ответы [ 2 ]

0 голосов
/ 23 ноября 2013

У меня есть решение Biopython для вас здесь. Сначала я предположу, что ваш файл genbank связан с последовательностью генома, затем я предоставлю другое решение, предполагая, что это была последовательность гена. Действительно, было бы полезно узнать, с каким из них вы имеете дело.

Анализ последовательности генома:

Извлеките из файла нестандартного файла genbank из файла:

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

Если вам просто нужна необработанная последовательность, то:

rawSequence = record.seq.tostring()

Теперь, возможно, вам нужно имя для этой последовательности, чтобы дать последовательности "> заголовок" перед созданием .fasta. Давайте посмотрим, какие имена пришли с файлом genbank .gb:

nameSequence = record.features[0].qualifiers

Это должно вернуть словарь с различными синонимами всей этой последовательности, аннотированный автором этого файла genbank

Анализ генной последовательности:

Извлечь файл из пользовательского файла genbank из файла по:

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

Чтобы получить список необработанных последовательностей для гена / список всех генов, тогда:

rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]

Чтобы получить список имен для каждой последовательности гена (точнее, словарь синонимов для каждого гена)

nameSequenceList = [gene.qualifiers for gene in record.features]
0 голосов
/ 14 июня 2011

Вам необходим модуль Bio :: SeqIO для чтения или записи данных биоинформатики. SeqIO HOWTO должен рассказать вам все, что вам нужно знать, но вот небольшой скрипт read-a-GenBank-file в Perl , чтобы вы начали!

...