Невозможно скрапировать немецкий сайт с помощью Scrapy - PullRequest
0 голосов
/ 24 января 2020

Я занимаюсь веб-очисткой, используя Scrapy, успешно создал паука, который будет сканировать весь веб-сайт, включая внутренние ссылки, имеющие тот же домен, я использовал Link Extractor для достижения этой цели. Это удаление успешно работает для веб-сайтов Engli sh, но когда я пытаюсь удалить немецкий сайт, оно не работает, обратный вызов function parse_item() не вызывается. если я изменю parse_item() на parse(), тогда URL домена немецкого веб-сайта будет удален, но не внутренние ссылки. Как мне это исправить?

Ниже мой код:

class WebSpider(CrawlSpider):

    name = 'WebSpider'

     #init function
     def __init__(self, *args, **kwargs):
         #code to accept domain url

        WebSpider.rules = [
                Rule(LinkExtractor(unique=True), callback='parse_item', follow=True)
            ]

        super(WebSpider, self).__init__(*args, **kwargs

     def parse_item(self, response):
         #Call back function to work with response
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...