Question

Я хотел проиндексировать текст из html, в Lucene, как лучше всего это сделать?
Есть ли хороший модуль Contrib, который может сделать это в Lucene?

EDIT
Наконец-то закончились использованием Jericho Parser. Он не создает DOM и прост в использовании.

bajafresh4life · Answer 1 · 11 марта 2011

Я предполагаю, что вы не хотите индексировать теги HTML. Если это так, вы можете сначала извлечь текст из HTML, используя Apache Tika . Затем вы можете проиндексировать текст в Lucene.

remo · Answer 2 · 15 марта 2011

Я бы порекомендовал использовать Jsoup HTML-парсер для извлечения текста и затем использовать Lucene. Это хорошо сработало для меня.

Gene Golovchinsky · Answer 3 · 13 марта 2011

Возможно, вы также захотите взглянуть на /Lucene-3.0.3/src/demo, в котором есть пример HTML-парсера.

Есть ли HTML-анализатор / токенизатор для Lucene?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли HTML-анализатор / токенизатор для Lucene?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов