Nutch - Lucene - захватить содержание страниц - PullRequest
1 голос
/ 05 декабря 2010

Я просканировал несколько страниц с помощью Java Nutch Также я сделал модуль с Lucene на Java, который позволяет выполнять запросы к проиндексированным документам. Я знаю, что создал поля Nutch, такие как url, weight и title. Но я заинтересован в захвате содержания каждой страницы. Как я могу сделать это, используя Lucene и зная, что ползал с помощью Nutch?

Спасибо

1 Ответ

0 голосов
/ 05 декабря 2010

Вы должны дать более подробную информацию о том, чего вы хотите достичь ... потому что Nutch уже включает в себя индекс Lucene, поэтому мне интересно, почему вы хотите еще один ???? Nutch имеет JSP-интерфейс, где вы можете посмотреть и узнать, как запросить некоторый контент поля. Реализована система кеширования, так что вы можете извлекать кэшированные данные страницы, но затем вам нужно снова их проанализировать и снова проиндексировать.

...