Я занимаюсь веб-очисткой, используя Scrapy
, успешно создал паука, который будет сканировать весь веб-сайт, включая внутренние ссылки, имеющие тот же домен, я использовал Link Extractor для достижения этой цели. Это удаление успешно работает для веб-сайтов Engli sh, но когда я пытаюсь удалить немецкий сайт, оно не работает, обратный вызов function parse_item()
не вызывается. если я изменю parse_item()
на parse()
, тогда URL домена немецкого веб-сайта будет удален, но не внутренние ссылки. Как мне это исправить?
Ниже мой код:
class WebSpider(CrawlSpider):
name = 'WebSpider'
#init function
def __init__(self, *args, **kwargs):
#code to accept domain url
WebSpider.rules = [
Rule(LinkExtractor(unique=True), callback='parse_item', follow=True)
]
super(WebSpider, self).__init__(*args, **kwargs
def parse_item(self, response):
#Call back function to work with response