Есть ли HTML-анализатор / токенизатор для Lucene? - PullRequest
10 голосов
/ 11 марта 2011

Я хотел проиндексировать текст из html, в Lucene, как лучше всего это сделать?
Есть ли хороший модуль Contrib, который может сделать это в Lucene?

EDIT
Наконец-то закончились использованием Jericho Parser. Он не создает DOM и прост в использовании.

Ответы [ 3 ]

7 голосов
/ 11 марта 2011

Я предполагаю, что вы не хотите индексировать теги HTML. Если это так, вы можете сначала извлечь текст из HTML, используя Apache Tika . Затем вы можете проиндексировать текст в Lucene.

6 голосов
/ 15 марта 2011

Я бы порекомендовал использовать Jsoup HTML-парсер для извлечения текста и затем использовать Lucene. Это хорошо сработало для меня.

2 голосов
/ 13 марта 2011

Возможно, вы также захотите взглянуть на /Lucene-3.0.3/src/demo, в котором есть пример HTML-парсера.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...