Question

Я просканировал несколько страниц с помощью Java Nutch Также я сделал модуль с Lucene на Java, который позволяет выполнять запросы к проиндексированным документам. Я знаю, что создал поля Nutch, такие как url, weight и title. Но я заинтересован в захвате содержания каждой страницы. Как я могу сделать это, используя Lucene и зная, что ползал с помощью Nutch?

Спасибо

millebii · Answer 1 · 05 декабря 2010

Вы должны дать более подробную информацию о том, чего вы хотите достичь ... потому что Nutch уже включает в себя индекс Lucene, поэтому мне интересно, почему вы хотите еще один ???? Nutch имеет JSP-интерфейс, где вы можете посмотреть и узнать, как запросить некоторый контент поля. Реализована система кеширования, так что вы можете извлекать кэшированные данные страницы, но затем вам нужно снова их проанализировать и снова проиндексировать.

Nutch - Lucene - захватить содержание страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Nutch - Lucene - захватить содержание страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы