Из Nutch Wiki:
Как мне проиндексировать мою локальную файловую систему?
http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6
1) crawl-urlfilter.txt необходимо изменить, чтобы разрешить file: URL, но не следовать http: единицам, в противном случае он либо ничего не будет индексировать, либо соскочит с вашего диска на веб-сайты.
Измените эту строку:
-^(file|ftp|mailto|https):
to this:
-^(http|ftp|mailto|https):
2) В нижней части crawl-urlfilter.txt могут быть правила отклонения некоторых URL-адресов. Если у этого есть этот фрагмент, это вероятно хорошо:
# accept anything else +.*
3) Я изменил свой файл nutch.xml, включив в него следующее:
<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>