Я соскребаю URL-адреса с сайта, но селену нужны только первые запросы, а остальные нет.Можно ли отключить селен в середине процесса утилизации?Я хочу сделать это, потому что, как вы, вероятно, сейчас, Selenium сильно замедляет процесс утилизации.Это код для паука:
class StoreSpider(scrapy.Spider):
name = 'store'
allowed_domains = ['www.store.com.br']
custom_settings = {
'COLLECTION_NAME' : 'store',
'URLS_COLLECTION_NAME' : 'store_urls',
'USES_SELENIUM' : True,
'HEADLESS' : True,
'DOWNLOADER_MIDDLEWARES': {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'navigator.middlewares.SeleniumMiddleware': 700,
}
}
categories_le = LinkExtractor(restrict_xpaths="//li[@class='h3']/a[not(@id)]")
def start_requests(self):
urls = [
'https://www.store.com.br/loja/mapa-do-site',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse_categories)