Для получения статистики о сканировании используйте Scrapy Stats .
self.stats.inc_value('link_count')
Статистика будет доступна как spider.stats
.
Статистика может быть восстановлена изпроект ScrapyCloud, использующий API метаданных () :
from scrapinghub import ScrapinghubClient
client = ScrapinghubClient()
pro = client.get_project(<PROJECT_ID>)
job = pro.jobs.get(<JOB_ID>)
stats = job.metadata.get('scrapystats')
.
>>> job.metadata.get('scrapystats')
...
'downloader/response_count': 104,
'downloader/response_status_count/200': 104,
'finish_reason': 'finished',
'finish_time': 1447160494937,
'item_scraped_count': 50,
'log_count/DEBUG': 157,
'log_count/INFO': 1365,
'log_count/WARNING': 3,
'memusage/max': 182988800,
'memusage/startup': 62439424,
...