Я хочу показать, как праймер является последовательным среди некоторых геномных данных. У меня есть праймер около 23 п.н., и я хочу сравнить его с примерно 5000 геномных последовательностей по 10 кБ. Поскольку это слишком много для моего компьютера, я хотел сделать следующее:
> 1. Cut out the area that my primer is located and about 20bp down each end.
> 2. Show only the bases that are different from my primer in my analysis.
> ex: Primer: -----------ATGTGGAAGCAAATATCAAATGA---------
> Gene: ATGACCATACG----C--------------T---ATCGTAGGG
> ATGAGCATACC-----A----T--------T---TTCGAACGC
Данные, которые я использую, представляют собой все последовательности денге (все серотипы) и праймер со следующим кодом: ATGTGGAAGCAAATATCAAATGA.
Я пытался каким-то образом использовать функцию msa () и смотреть только на часть интересующего гена. Тем не менее, это было трудно, потому что точно предсказать, нужно ли его выравнивать.
Я все еще думал о том, чтобы вырезать произвольное число вокруг этой части гена и выровнять его, но не мог найти выход, чтобы продемонстрировать это должным образом, а также думал, что у других могут быть предложения для лучшего способа сделать это.
Я использую Biostrings, MSA и Seqinr. Я использую ncbi для получения генетических последовательностей и использования файлов FASTA.
Спасибо!