Быстрое выравнивание последовательности в строках Unicode - PullRequest
1 голос
/ 04 августа 2010

Я хочу запустить что-то вроде алгоритма BLAST для запроса большой базы данных строк Unicode. Большая часть программного обеспечения для выравнивания, такого как BLAST, ожидает ввод нуклеотидных или белковых последовательностей. Но мой вход мог потенциально содержать любой символ Юникода. Кто-нибудь знает о программном обеспечении, которое позволит мне сделать это? Матрица оценки может быть просто единичной матрицей (без частичного совпадения).

Я пробовал Нидлмана-Вунша и Смита Уотермана, но для моих целей они слишком медленные. Мне нужно запросить большую базу данных, как в BLAST.

Спасибо!

Ответы [ 3 ]

0 голосов
/ 08 августа 2011

vmatch - это общая программа выравнивания на основе суффикс-дерева

0 голосов
/ 22 августа 2012

Вы также можете попробовать STELLAR: это квазароподобный фильтр с шагом проверки. (см. этот документ )

Это довольно быстро для малых расстояний редактирования <5%. </p>

0 голосов
/ 03 сентября 2010

BLAST можно использовать для выравнивания последовательностей символов из любого алфавита.Возможно, вам потребуется реализовать его самостоятельно, поскольку большинство общедоступных реализаций адаптированы для белков, но алгоритм не является специфичным для белков или нуклеотидных последовательностей.

...