Я хочу проиндексировать HTML-текст с помощью FrenchAnalyzer, поэтому мне нужно удалить HTML-текст перед его анализом.
Я хочу выделить ключевые слова после поиска, чтобы решение, подобное этому , не работало, потому что я хочу сохранить информацию о положении символов.
Я нашел класс SolR HTMLStripCharFilter, который выглядит идеально, но я не могу связать его с FrenchAnalyzer.
Я пытался переписать FrenchAnalyzer, но я не знаю, как использовать HtmlStripCharFilter, и он не работает как стандартный фильтр Lucene.
Я использую Lucene 3.5.0 без Solr