Расстояние Левенштейна дает нам способ вычислить расстояние между двумя одинаковыми строками в терминах неупорядоченных отдельных символов:
quick brown fox
quikc brown fax
Расстояние Левенштейна = 3.
Что такое похожий алгоритм для расстояния между двумя строками с одинаковыми подпоследовательностями?
Например, в
quickbrownfox
brownquickfox
расстояние Левенштейна равно 10, но это не учитывает того факта, что строки имеют две одинаковые подпоследовательности, что делает их более "похожими", чем полностью неупорядоченные слова типа
quickbrownfox
qburiocwknfox
и все же эта полностью неупорядоченная версия имеет расстояние Левенштейна, равное восьми.
Какие существуют меры расстояния, которые учитывают длину подпоследовательностей, не предполагая, что подпоследовательности могут быть легко разбиты на отдельные слова?