как сделать файловую систему Nutch Crawl? - PullRequest
4 голосов
/ 02 июня 2009

не основано на http,

как http://localhost:81 и так далее,

но непосредственно сканировать определенный каталог в локальной файловой системе,

есть ли выход?

Ответы [ 2 ]

4 голосов
/ 12 июля 2009

Из Nutch Wiki:

Как мне проиндексировать мою локальную файловую систему?

http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6

1) crawl-urlfilter.txt необходимо изменить, чтобы разрешить file: URL, но не следовать http: единицам, в противном случае он либо ничего не будет индексировать, либо соскочит с вашего диска на веб-сайты. Измените эту строку:

  -^(file|ftp|mailto|https):

  to this:

  -^(http|ftp|mailto|https):

2) В нижней части crawl-urlfilter.txt могут быть правила отклонения некоторых URL-адресов. Если у этого есть этот фрагмент, это вероятно хорошо:

  # accept anything else +.*

3) Я изменил свой файл nutch.xml, включив в него следующее:

<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>
1 голос
/ 12 июня 2009

Nutch имеет доступ к сканированию в интрасети. Вы можете прочитать подробности здесь

...