Я новичок в scrapy и не могу заставить его делать что-либо.В конце концов я хочу очистить все html-комментарии с веб-сайта, перейдя по внутренним ссылкам.
Сейчас я просто пытаюсь очистить внутренние ссылки и добавить их в список.
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class comment_spider(CrawlSpider):
name = 'test'
allowed_domains = ['https://www.andnowuknow.com/']
start_urls = ["https://www.andnowuknow.com/"]
rules = (Rule(LinkExtractor(), callback='parse_start_url', follow=True),)
def parse_start_url(self, response):
return self.parse_item(response)
def parse_item(self, response):
urls = []
for link in LinkExtractor(allow=(),).extract_links(response):
urls.append(link)
print(urls)
Я просто пытаюсь заставить его напечатать что-то на этом этапе, ничего из того, что я пробовал до сих пор, не работает.
Он заканчивается с кодом выхода 0, но не печатает, поэтому я не могу сказать, что происходит.
Чего мне не хватает?