Question

У меня есть некоторые сомнения в Nutch пока я пользовался вики, меня просят отредактировать crawl-urlfilter.txt

+^http://([a-z0-9]*\.)*apache.org/

и меня просят создать папку URL и список URL ...

мне нужно создать все ссылки в crawl-urlfilter.txt и в списке URL ...

millebii · Answer 1 · 05 декабря 2010

Да и нет.

crawl-urlfiler.txt действует как фильтр, поэтому в вашем примере будут сканироваться только URL-адреса на apache.org

В папке url содержатся «начальные» URL-адреса, с которых должен запускаться сканер. Поэтому, если вы хотите, чтобы сканер оставался на нескольких сайтах, вам нужно убедиться, что они имеют положительное совпадение с фильтром ... в противном случае он будет сканировать всю сеть. Это может означать, что вы должны поместить список сайтов в фильтр

как заставить ползать орешек

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как заставить ползать орешек

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы