Как исправить неоптимальные размещения пробелов в выравниваниях с StripedSmithWaterman ()? - PullRequest
0 голосов
/ 07 мая 2019

В настоящее время я работаю над проектом, который требует оптимального выравнивания последовательностей ДНК с высокой скоростью и работает с функцией StripedSmithWaterman () из библиотеки scikit-bio.К сожалению, я считаю, что расположение разрывов очень не в порядке.

Например:


aln1: ...TA-GT--CTAGTCGAAAATGGGGCTG-GTA...

aln2: ...TAGG-TCCC-TGGCGAAATGGG-GCTGGAG...

Этот фрагмент взят из большего выравнивания.Как вы можете видеть в индексе 5 (начиная с 0) в aln2 есть пробел, который вызывает несоответствие с aln1, когда обе базы могут быть выровнены как 'T' без этого пробела.Затем в индексе 22 есть еще один пробел, который сдвигает «GCTG» на aln2, так что он не выравнивается с «GCTG» на aln1.

Мой код для этого просто:

query = StripedSmithWaterman(queryseq)
alignment = query(targetseq)

Любая помощь с этим будет принята с благодарностью.

...