Я пытаюсь найти длинные приблизительные подстроки в большой базе данных.Например, запрос может представлять собой подстроку из 1000 символов, которая может отличаться от соответствия расстоянием Левенштейна в несколько сотен правок.Я слышал, что индексированные q-граммы могут это сделать, но я не знаю деталей реализации.Я также слышал, что Lucene может это сделать, но достаточно ли быстродействующий алгоритм Lucene's levenshtein для сотен правок?Возможно, что-то из мира обнаружения плагиата?Любой совет приветствуется.