Question

Я использую Lucene для индексации своих данных, используя язык программирования Java. Но, тем не менее, когда я получаю термины, проиндексированные lucene, они появляются с тегами вроде html (html считается термином, а не тегом, и lucene не удаляет его). Есть ли какой-нибудь код или библиотека, например, английский анализатор, который может удалить нужные HTML-теги?

Mysterion · Answer 1 · 13 октября 2019

Если вы хотите удалить html-теги перед их индексацией в Lucene, вы можете использовать PatternReplaceCharFilter . Он использует регулярное выражение для цели строки замены.

Вы можете создать фильтр типа чара следующим образом:

CharFilter cf = new PatternReplaceCharFilter(Pattern.compile("<[^>]*>"), "", reader);

this, заменит все теги html пустой строкой, поэтому будетудален.

Lucene индексация без HTML теги CSS Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Lucene индексация без HTML теги CSS Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы