Я написал простого паука, которому я хочу перейти по всем ссылкам в домене (в данном примере amazon.com), это мой код до сих пор
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from urllib.parse import urlparse
from scrapy.utils.response import open_in_browser
class ExampleSpider(CrawlSpider):
name = 'example'
allowed_domains = ['amazon.com']
rules = (
Rule(LinkExtractor(allow='',
deny_extensions=['7z', '7zip', 'apk', 'bz2', 'cdr,' 'dmg', 'ico,' 'iso,' 'tar', 'tar.gz','pdf','docx'],
), callback='parse_item', follow=True,
),
)
custom_settings = {'LOG_ENABLED':True}
def start_requests(self):
#print(self.website)
url = 'https://www.amazon.com/s?k=water+balloons'
yield scrapy.Request(url,callback=self.parse_item,)
def parse_item(self,response):
#open_in_browser(response)
print(response.url)
Я проверил этот вопрос, но ответ не сделал ' scrapy следуйте по всем ссылкам и получите статус , я также пытался заменить allow=''
на restrict_xpaths='\\a'
, но это не помогло, любая помощь приветствуется.
Примечание: Это важно, чтобы паук оставался в домене amazon.com