Мне нужно проверить все мои очищенные данные после завершения сканирования (процент доступности некоторых полей и т. Д.). Данные содержатся в CSV-файле, поэтому для тестирования я решил использовать Pandas. Есть ли способ запустить код, который проверяет файл .csv внутри паука scrapy после того, как Scrapy сообщит мне, что сканирование завершено? Я пытался использовать расширения, но не смог заставить его работать. Thx
class Spider(scrapy.Spider):
name = 'scrapyspider'
allowed_domains = ['www.example.com']
start_urls = ['https://www.example.com/1/', 'https://www.example.com/2/']
def parse(self, response):
for product_link in response.xpath(
'//a[@class="product-link"]/@href').extract():
absolute_url = response.urljoin(product_link)
yield scrapy.Request(absolute_url, self.parse_product)
for category_link in response.xpath(
'//a[@class="navigation-item-link"]/@href').extract():
absolute_url = response.urljoin(category_link)
yield scrapy.Request(absolute_url, self.parse)
def parse_product(self, response):
...
yield item