Индексирование документа - PullRequest
0 голосов
/ 01 марта 2011

Если я хочу проиндексировать документ (HTML) в java и посчитать количество индексов, лучше ли будет использовать Lucene? У меня такое ощущение, что Lucene - это просто поисковая система.

Большое спасибо действительно

Ответы [ 2 ]

4 голосов
/ 01 марта 2011

Да! Я сделал именно эту вещь. Я использовал JSOUP и Lucene, чтобы получить HTML-страницу для индексации содержимого. JSOUP похожа на библиотеку jQuery за исключением java. Таким образом, я смог получить div, который я хотел проиндексировать и получить весь текст для этого. Я могу поделиться примерами, если хотите. В чем вы сомневаетесь, и, возможно, я могу вам помочь с этим?

Редактировать : Вот пример проекта, который я сделал некоторое время назад https://github.com/amir20/iAuthor/blob/master/wikitool/src/main/java/edu/gwu/raminfar/iauthor/wikitool/WikiTool.java#L180

Это работает очень хорошо, если вам нужен настоящий сервис индексирования. Если вы хотите просто сохранить HTML в базе данных, то Lucene может не быть вашим выбором.

1 голос
/ 01 марта 2011

Ну да - Lucene - это поисковая система. (Если быть более точным: это библиотека, которая позволяет создавать поисковую систему). Чтобы получить поисковую систему, вам нужен текстовый индекс, и Lucene также предоставляет его. И это довольно мощный инструмент - он включает stemmers для английского и некоторых других языков, и, по моему опыту, он работает быстро даже с большими объемами данных.

Lucene не будет анализировать HTML для вас, поэтому вам нужно сделать это, прежде чем помещать текст в индекс.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...