У меня есть простой индекс Lucene отсканированных документов с полем, содержащим текст страницы.
Я пытаюсь найти комбинации имени и фамилии, поэтому запустите поиск, например. «Элизабет Уайт» ~ 3, чтобы вернуть хиты, где слова Элизабет и Уайт разделены на 3 слова.
Прежде чем приступить к реализации кода поиска, я проверял различные варианты поиска с помощью Luke -Lucene Index Toolbox v 0.9.9
Список возвращенных документов совпадений содержит результаты, в которых термины разделены более чем на 3 слова ??
Эти дополнительные удары имеют меньшую оценку, но я не уверен
(а) почему это происходит или (б) как определить минимальный балл, который я должен использовать.
Роджер