Я пытаюсь проанализировать больший файл fasta по меньшей базе данных. Из того, что я понимаю, я могу использовать местоположения генома в меньшей базе данных, чтобы изолировать последовательности в большем файле fasta.
В настоящее время я пытаюсь использовать gffread, который хорошо работает для первой части.
gffread database.gtf -g genome.fa -w output.fasta
За исключением того, что я хотел бы сохранить имена в файле FASTA, а не в файле gtf. У кого-нибудь есть предложения по предпочтительным методам для достижения этой цели? Заранее спасибо!
РЕДАКТИРОВАТЬ: В качестве альтернативы, у меня также есть список генов Ensembl и идентификаторов транскриптов, связанных с местами интересов в файле gtf. Если проще проанализировать весь файл FASTA, используя эти имена, а не файл gtf, я приветствую решения, использующие этот метод. Спасибо!