Lucene индексация без HTML теги CSS Java - PullRequest
0 голосов
/ 11 октября 2019

Я использую Lucene для индексации своих данных, используя язык программирования Java. Но, тем не менее, когда я получаю термины, проиндексированные lucene, они появляются с тегами вроде html (html считается термином, а не тегом, и lucene не удаляет его). Есть ли какой-нибудь код или библиотека, например, английский анализатор, который может удалить нужные HTML-теги?

1 Ответ

0 голосов
/ 13 октября 2019

Если вы хотите удалить html-теги перед их индексацией в Lucene, вы можете использовать PatternReplaceCharFilter . Он использует регулярное выражение для цели строки замены.

Вы можете создать фильтр типа чара следующим образом:

CharFilter cf = new PatternReplaceCharFilter(Pattern.compile("<[^>]*>"), "", reader);

this, заменит все теги html пустой строкой, поэтому будетудален.

...