Question

не основано на http,

как http://localhost:81 и так далее,

но непосредственно сканировать определенный каталог в локальной файловой системе,

есть ли выход?

Robert Nickens · Answer 1 · 12 июля 2009

Из Nutch Wiki:

Как мне проиндексировать мою локальную файловую систему?

http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6

1) crawl-urlfilter.txt необходимо изменить, чтобы разрешить file: URL, но не следовать http: единицам, в противном случае он либо ничего не будет индексировать, либо соскочит с вашего диска на веб-сайты. Измените эту строку:

  -^(file|ftp|mailto|https):

  to this:

  -^(http|ftp|mailto|https):

2) В нижней части crawl-urlfilter.txt могут быть правила отклонения некоторых URL-адресов. Если у этого есть этот фрагмент, это вероятно хорошо:

  # accept anything else +.*

3) Я изменил свой файл nutch.xml, включив в него следующее:

<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>

Sumit Ghosh · Answer 2 · 12 июня 2009

Nutch имеет доступ к сканированию в интрасети. Вы можете прочитать подробности здесь

как сделать файловую систему Nutch Crawl?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как сделать файловую систему Nutch Crawl?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы