Натч сильно отличается от того, что вы когда-либо практиковали, скорее всего.
Поскольку это нечто вроде фреймворка, у которого есть не только фронт для запросов и поиска, хотя solr кажется более мощным, чем родной интерфейс поиска Nutch. Он также имеет сканирующую часть и индексирование (в индекс Lucene).
Если вы хотите использовать сканирование для других целей, кроме поиска, вам необходимо разработать собственные программы и ознакомиться с программированием на Hadoop и MapReduce.
Не уверен, что вы хотите делать со сканированием, но не похоже, что Nutch - это решение