Я хотел проиндексировать текст из html, в Lucene, как лучше всего это сделать? Есть ли хороший модуль Contrib, который может сделать это в Lucene?
EDIT Наконец-то закончились использованием Jericho Parser. Он не создает DOM и прост в использовании.
Я предполагаю, что вы не хотите индексировать теги HTML. Если это так, вы можете сначала извлечь текст из HTML, используя Apache Tika . Затем вы можете проиндексировать текст в Lucene.
Я бы порекомендовал использовать Jsoup HTML-парсер для извлечения текста и затем использовать Lucene. Это хорошо сработало для меня.
Возможно, вы также захотите взглянуть на /Lucene-3.0.3/src/demo, в котором есть пример HTML-парсера.