Вы должны дать более подробную информацию о том, чего вы хотите достичь ... потому что Nutch уже включает в себя индекс Lucene, поэтому мне интересно, почему вы хотите еще один ????
Nutch имеет JSP-интерфейс, где вы можете посмотреть и узнать, как запросить некоторый контент поля. Реализована система кеширования, так что вы можете извлекать кэшированные данные страницы, но затем вам нужно снова их проанализировать и снова проиндексировать.