У меня есть паук-обходчик, который идет в стеклянную дверь и получает все ссылки. Однако я анализирую все ссылки в методе, используя оператор IF. Работает отлично. Но я хочу использовать аргумент разрешения LinkExtractor. Поэтому я искал регулярное выражение, позволяющее мне отфильтровать ссылку, в которой есть "-Reviews-E".
Заранее спасибо
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ExampleSpider(CrawlSpider):
name = "glassdoor" # Spider name
allowed_domains = ['glassdoor.co.in', 'glassdoor.com'] # Which (sub-)domains shall be scraped?
start_urls = ["https://www.glassdoor.co.in/"] # Start with this one
rules = [Rule(LinkExtractor(allow='.*'), callback='parse_item', follow=True)] # Follow any link scrapy finds (that is allowed).
def parse_item(self, response):
if "-Reviews-E" in response.url:
print("********************"+response.url)