Question

Используя Nutch, я хотел бы отсканировать все http://www.amazon.com/ веб-страницы с ipod в URL.

Например, если при поиске ipod в окне поиска я получу

На этой веб-странице показаны ссылки на ipod. Я хотел бы просканировать каждую ссылку, связанную с ipod, и получить ее.

Первая ссылка, отображаемая под результатами поиска:

Должен ли я использовать ниже?

+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod*

Mohsen ZareZardeyni · Answer 1 · 16 июля 2013

Если вы хотите сканировать эти конкретные URL, вы должны включить следующую строку в crawl-urlfilter.txt

-.*

эта команда исключит все остальные URL!

Nutch: поиск по ключевым словам

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.