Я изучаю scrapy и пытаюсь ползти www.google.com/.*
.Я запрограммировал следующего паука, но он все еще посещает субдомены, такие как support.google.com
.Чего мне не хватает?
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class GoogleSpider(CrawlSpider):
name = 'google'
allowed_domains = ['www.google.com']
start_urls = ['http://www.google.com']
rules = [
Rule(LinkExtractor(
allow=[r"^http[s]?://www.google.com/.*"]),
callback='parse_item',
follow = True)
]
def parse_item(self, response):
print('Processing {}'.format(response.url))
Примечание : было слишком много отладочных выходов, поэтому я добавил строку LOG_LEVEL = 'ERROR'
в settings.py
и использую print
дляпосмотреть, какая веб-страница посещена.
Этот скрипт печатает URL субдоменов, например support.google.com
, почему?