Nutch: поиск по ключевым словам - PullRequest
2 голосов
/ 29 октября 2011

Используя Nutch, я хотел бы отсканировать все http://www.amazon.com/ веб-страницы с ipod в URL.

Например, если при поиске ipod в окне поиска я получу

http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=ipod&x=0&y=0

На этой веб-странице показаны ссылки на ipod. Я хотел бы просканировать каждую ссылку, связанную с ipod, и получить ее.

Первая ссылка, отображаемая под результатами поиска:

http://www.amazon.com/Apple-iPod-touch-8GB-Generation/dp/B001FA1O0O/ref=sr_1_1?ie=UTF8&qid=1319863311&sr=8-

Должен ли я использовать ниже?

+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod*

1 Ответ

0 голосов
/ 16 июля 2013

Если вы хотите сканировать эти конкретные URL, вы должны включить следующую строку в crawl-urlfilter.txt

-.*

эта команда исключит все остальные URL!

...