Я использую Lucene для индексации своих данных, используя язык программирования Java. Но, тем не менее, когда я получаю термины, проиндексированные lucene, они появляются с тегами вроде html (html считается термином, а не тегом, и lucene не удаляет его). Есть ли какой-нибудь код или библиотека, например, английский анализатор, который может удалить нужные HTML-теги?