В настоящее время я работаю над проектом, который требует оптимального выравнивания последовательностей ДНК с высокой скоростью и работает с функцией StripedSmithWaterman () из библиотеки scikit-bio.К сожалению, я считаю, что расположение разрывов очень не в порядке.
Например:
aln1: ...TA-GT--CTAGTCGAAAATGGGGCTG-GTA...
aln2: ...TAGG-TCCC-TGGCGAAATGGG-GCTGGAG...
Этот фрагмент взят из большего выравнивания.Как вы можете видеть в индексе 5 (начиная с 0) в aln2 есть пробел, который вызывает несоответствие с aln1, когда обе базы могут быть выровнены как 'T' без этого пробела.Затем в индексе 22 есть еще один пробел, который сдвигает «GCTG» на aln2, так что он не выравнивается с «GCTG» на aln1.
Мой код для этого просто:
query = StripedSmithWaterman(queryseq)
alignment = query(targetseq)
Любая помощь с этим будет принята с благодарностью.