Question

Весь сайт легко просканировать

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor

class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com']

    def parse(self, response):
        extractor =LinkExtractor(allow_domains='quotes.toscrape.com')
        links = extractor.extract_links(response)
        for link in links:
            yield scrapy.Request(link.url, self.parse)
        yield {'url': response.url}

Но как я могу вернуть одно значение?Общее количество ссылок.

Apalala · Answer 1 · 26 февраля 2019

Для получения статистики о сканировании используйте Scrapy Stats .

self.stats.inc_value('link_count')

Статистика будет доступна как spider.stats.

Статистика может быть восстановлена изпроект ScrapyCloud, использующий API метаданных () :

from scrapinghub import ScrapinghubClient

client  = ScrapinghubClient()

pro = client.get_project(<PROJECT_ID>)
job = pro.jobs.get(<JOB_ID>)

stats = job.metadata.get('scrapystats')

.

>>> job.metadata.get('scrapystats')
...
'downloader/response_count': 104,
'downloader/response_status_count/200': 104,
'finish_reason': 'finished',
'finish_time': 1447160494937,
'item_scraped_count': 50,
'log_count/DEBUG': 157,
'log_count/INFO': 1365,
'log_count/WARNING': 3,
'memusage/max': 182988800,
'memusage/startup': 62439424,
...

Scrapy.Просматривать весь сайт и возвращать одно значение: общее количество ссылок

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy.Просматривать весь сайт и возвращать одно значение: общее количество ссылок

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов