Используя Nutch, я хотел бы отсканировать все http://www.amazon.com/ веб-страницы с ipod в URL.
Например, если при поиске ipod в окне поиска я получу
http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=ipod&x=0&y=0
На этой веб-странице показаны ссылки на ipod. Я хотел бы просканировать каждую ссылку, связанную с ipod, и получить ее.
Первая ссылка, отображаемая под результатами поиска:
http://www.amazon.com/Apple-iPod-touch-8GB-Generation/dp/B001FA1O0O/ref=sr_1_1?ie=UTF8&qid=1319863311&sr=8-
Должен ли я использовать ниже?
+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod*
Если вы хотите сканировать эти конкретные URL, вы должны включить следующую строку в crawl-urlfilter.txt
-.*
эта команда исключит все остальные URL!