Lucene: поиск определенной группы последовательных слов в предложении - PullRequest
2 голосов
/ 02 ноября 2010

Я проиндексировал список слов, таких как «только что видел», «только что прошел», «только что встретил» .. У меня есть список предложений, и я хочу извлечь только те предложения, в которых есть эти ключевые слова.например, «я только что посмотрел фильм».но я не хочу высказывания типа «Я был в США и встретил Обаму».Я хочу только те предложения, которые имеют последовательные ключевые слова.Как я могу сделать это, используя luence

Ответы [ 2 ]

2 голосов
/ 02 ноября 2010

Поиск по близости в Lucene

Lucene поддерживает поиск слов на определенном расстоянии.Для поиска по близости используйте тильду, символ «~» в конце фразы.Например, чтобы искать слова «apache» и «jakarta» в пределах 10 слов друг от друга в документе, используйте поиск:

"jakarta apache"~10
1 голос
/ 02 ноября 2010

Существует также SpanQuery , который дает хороший контроль над порядком условий.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...