Question

Я изучаю scrapy и пытаюсь ползти www.google.com/.*.Я запрограммировал следующего паука, но он все еще посещает субдомены, такие как support.google.com.Чего мне не хватает?

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class GoogleSpider(CrawlSpider):
    name = 'google'
    allowed_domains = ['www.google.com']
    start_urls = ['http://www.google.com']

    rules = [
        Rule(LinkExtractor(
                  allow=[r"^http[s]?://www.google.com/.*"]),
                  callback='parse_item',
                  follow = True)
    ]

    def parse_item(self, response):
        print('Processing {}'.format(response.url))

Примечание : было слишком много отладочных выходов, поэтому я добавил строку LOG_LEVEL = 'ERROR' в settings.py и использую print дляпосмотреть, какая веб-страница посещена.

Этот скрипт печатает URL субдоменов, например support.google.com, почему?

Yash Pokar · Answer 1 · 11 июня 2018

попробуйте только с

allowed_domains = ['google.com']

вместо allowed_domains = ['www.google.com']

Scrapy CrawlSpider: запретить поддомен не будет работать, почему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy CrawlSpider: запретить поддомен не будет работать, почему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов