import scrapy
from scrapy.spiders.crawl import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class MySpider(CrawlSpider):
name = 'genericSpider'
allowed_domains = ['example.com']
start_urls = [url_1, url_2, url_3]
rules = [
Rule(
LinkExtractor(),
callback='parse',
follow=True
),
]
def parse(self, response):
hxs = scrapy.Selector(response)
links = hxs.xpath('*//a/@href').extract()
for link in links:
print(link)
print()
Я пытаюсь сканировать веб-сайт. Для примера моего кода я просто извлекаю все ссылки и распечатываю их на терминал.
Этот процесс прекрасно работает для URL-адресов в start_urls, но не похоже, что паук будет сканировать извлеченные URL-адреса.
Это точка CrawlSpider, верно? посетить страницу, собрать ее ссылки и посещать все эти ссылки, пока они не закончатся?
Я застрял на несколько дней, любая помощь была бы отличной.