как заставить ползать орешек - PullRequest
2 голосов
/ 27 ноября 2010

У меня есть некоторые сомнения в Nutch пока я пользовался вики, меня просят отредактировать crawl-urlfilter.txt

+^http://([a-z0-9]*\.)*apache.org/

и меня просят создать папку URL и список URL ...

мне нужно создать все ссылки в crawl-urlfilter.txt и в списке URL ...

1 Ответ

0 голосов
/ 05 декабря 2010

Да и нет.

crawl-urlfiler.txt действует как фильтр, поэтому в вашем примере будут сканироваться только URL-адреса на apache.org

В папке url содержатся «начальные» URL-адреса, с которых должен запускаться сканер. Поэтому, если вы хотите, чтобы сканер оставался на нескольких сайтах, вам нужно убедиться, что они имеют положительное совпадение с фильтром ... в противном случае он будет сканировать всю сеть. Это может означать, что вы должны поместить список сайтов в фильтр

...