Как сохранить идентификаторы FASTA при разборе чтения по местоположению - PullRequest
0 голосов
/ 02 марта 2020

Я пытаюсь проанализировать больший файл fasta по меньшей базе данных. Из того, что я понимаю, я могу использовать местоположения генома в меньшей базе данных, чтобы изолировать последовательности в большем файле fasta.

В настоящее время я пытаюсь использовать gffread, который хорошо работает для первой части.

gffread database.gtf -g genome.fa -w output.fasta

За исключением того, что я хотел бы сохранить имена в файле FASTA, а не в файле gtf. У кого-нибудь есть предложения по предпочтительным методам для достижения этой цели? Заранее спасибо!

РЕДАКТИРОВАТЬ: В качестве альтернативы, у меня также есть список генов Ensembl и идентификаторов транскриптов, связанных с местами интересов в файле gtf. Если проще проанализировать весь файл FASTA, используя эти имена, а не файл gtf, я приветствую решения, использующие этот метод. Спасибо!

...