Как я могу извлечь конкретный текст из индекса Lucene? - PullRequest
0 голосов
/ 23 марта 2012

Я хочу добавить PDF-файлы в Lucene Index (вероятно, я сделал).Теперь я хочу извлечь конкретный текст с помощью поискового запроса близости lucene.

поисковый запрос близости возвращает только имена файлов.

But i want to extract all texts within the proximity query range.

Пример Case: test.pdf: -> «Образец текста A xxxxx B. Lucene великолепен во все времена»

запрос о близости: AB ~ 5

Я хочу извлечь: xxxxx

Как я могу это сделать ......?

Заранее спасибо за помощь исоветы ...........

С уважением,

СЕНТХИЛ САРАВАНАН

1 Ответ

0 голосов
/ 23 марта 2012

Пожалуйста, добавьте при индексации файла

            doc.add(new Field("contents", result, Field.Store.COMPRESS,
                        Field.Index.ANALYZED,
                        Field.TermVector.WITH_POSITIONS_OFFSETS));

здесь документ имеет тип org.apache.lucene.document.Document.

При поиске файла используйте com.java.search.HighlighterUtil.getFragmentsWithHighlightedTerms (анализатор анализатора, запрос Query, строковое fieldName, строковое fieldContents, int фрагментNumber, int фрагментSize) для фрагментов.

...