Вы не Lucene, чтобы получить сходство между текстами. Существует несколько доступных мер в зависимости от длины текста, типа строк и т. Д., И вам нужно будет поэкспериментировать, чтобы получить наилучшие результаты.
AОчень хорошая и всеобъемлющая коллекция алгоритмов доступна на SimMetrics - это библиотека F / OSS, которая предлагает обширную коллекцию алгоритмов подобия и соответствующих им функций стоимости.