как пройти только определенные области сайта?В основном оставаться в пределах определенных страниц? - PullRequest
0 голосов
/ 23 апреля 2019

Я использую scrapy / spyder для создания своего сканера, а также BeautifulSoup. Я работал над сканером и считаю, что мы находимся в точке, которая работает, как и ожидалось, с несколькими отдельными страницами, которые мы просмотрели, поэтомуМоя следующая задача - очистить тот же сайт, но ТОЛЬКО страницы, относящиеся к категории высокого уровня.

Единственное, что я попробовал, - это использование allow_domain и start_urls, но когда я это сделал, он буквально попадал на каждую найденную страницу, и мы хотим контролировать, какие страницы мы чистим, чтобы у нас был чистый список информации.

Я понимаю, что на каждой странице есть ссылки, которые выводят вас за пределы страницы, на которой вы находитесь, и могут оказаться в других местах на сайте ... но я пытаюсь сосредоточиться только на нескольких страницах в каждой категории

#    allowed_domain = ['dickssportinggoods.com']
#    start_urls = ['https://www.dickssportinggoods.com/c/mens-top-trends-gear']

1 Ответ

1 голос
/ 23 апреля 2019

Вы можете либо основать своего паука на классе Spider и кодировать навигацию самостоятельно, либо на его основе на классе CrawlSpider и использовать правила для контроля посещаемых страниц. Из предоставленной вами информации кажется, что более поздний подход более соответствует вашим требованиям. Посмотрите пример , чтобы увидеть, как работают правила.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...