Question

Я новичок в scrapy и не могу заставить его делать что-либо.В конце концов я хочу очистить все html-комментарии с веб-сайта, перейдя по внутренним ссылкам.

Сейчас я просто пытаюсь очистить внутренние ссылки и добавить их в список.

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

    class comment_spider(CrawlSpider):
        name = 'test'
        allowed_domains = ['https://www.andnowuknow.com/']
        start_urls = ["https://www.andnowuknow.com/"]

        rules = (Rule(LinkExtractor(), callback='parse_start_url', follow=True),)

        def parse_start_url(self, response):
            return self.parse_item(response)

        def parse_item(self, response):
            urls = []
            for link in LinkExtractor(allow=(),).extract_links(response):
                urls.append(link)
                print(urls)

Я просто пытаюсь заставить его напечатать что-то на этом этапе, ничего из того, что я пробовал до сих пор, не работает.

Он заканчивается с кодом выхода 0, но не печатает, поэтому я не могу сказать, что происходит.

Чего мне не хватает?

Thiago Curvelo · Answer 1 · 20 марта 2019

Конечно, ваш журнал сообщений должен давать нам некоторые подсказки, но я вижу, что у вашего allowed_domains есть URL вместо домена.Вы должны установить его так:

allowed_domains = ["andnowuknow.com"]

(см. Официальную документацию)

Надеюсь, это поможет.

Python: почему в scrapy crawlspider не печатает или ничего не делает?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python: почему в scrapy crawlspider не печатает или ничего не делает?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов