Как сделать регулярное выражение для LinkExtractor в Crawl Spider - PullRequest
0 голосов
/ 18 апреля 2020

У меня есть паук-обходчик, который идет в стеклянную дверь и получает все ссылки. Однако я анализирую все ссылки в методе, используя оператор IF. Работает отлично. Но я хочу использовать аргумент разрешения LinkExtractor. Поэтому я искал регулярное выражение, позволяющее мне отфильтровать ссылку, в которой есть "-Reviews-E".

Заранее спасибо

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class ExampleSpider(CrawlSpider):
    name = "glassdoor"  # Spider name
    allowed_domains = ['glassdoor.co.in', 'glassdoor.com']  # Which (sub-)domains shall be scraped?
    start_urls = ["https://www.glassdoor.co.in/"]  # Start with this one
    rules = [Rule(LinkExtractor(allow='.*'), callback='parse_item', follow=True)]  # Follow any link scrapy finds (that is allowed).

    def parse_item(self, response):
        if "-Reviews-E" in response.url:
            print("********************"+response.url)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...