Scrapy Bestbuy не извлекает данные - PullRequest
0 голосов
/ 10 февраля 2020

Мне было интересно, почему scrapy не извлекает данные на сайте bestbuy. что-то не так с моим кодом?

import scrapy

class QuotesSpider(scrapy.Spider):
    name = 'bestbuy'
    start_url = ['https://www.bestbuy.com/site/promo/newly-discounted-outlet-products']

    def parse(self, response):
        title = response.css('div.sku-title a::text').extract()
        yield title

это мои результаты при сканировании сканирования bestbuy -o bestbuy.csv

2020-02-10 06:04:22 [scrapy.core.engine] INFO: Spider opened
2020-02-10 06:04:22 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2020-02-10 06:04:22 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-02-10 06:04:22 [scrapy.core.engine] INFO: Closing spider (finished)
2020-02-10 06:04:22 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'elapsed_time_seconds': 0.017988,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2020, 2, 10, 12, 4, 22, 251711),
 'log_count/INFO': 10,
 'start_time': datetime.datetime(2020, 2, 10, 12, 4, 22, 233723)}
2020-02-10 06:04:22 [scrapy.core.engine] INFO: Spider closed (finished)

1 Ответ

1 голос
/ 10 февраля 2020

Причина, по которой он работал в оболочке, а не в вашем коде, заключается в том, что вы забыли «s» в конце «start_urls».

Это должно работать:

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'bestbuy'
    start_urls = [
        'https://www.bestbuy.com/site/promo/newly-discounted-outlet-products']

    def parse(self, response):
        for title in response.css('h4 > a::text').getall():
            yield {"title": title}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...