Question

Прежде всего большое спасибо за вашу помощь!

Я не знаю, почему я получаю только два результата на страницу. Не могли бы вы мне помочь? Вот код:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from mercado.items import MercadoItem


class MercadoSpider(CrawlSpider):
    name = 'mercado'
    item_count = 0
    allowed_domain = ['https://www.amazon.es']
    start_urls = ['https://www.amazon.es/s/ref=sr_pg_2rh=n%3A1951051031%2Cn%3A2424922031%2Ck%3Afe bi&page=1&keywords=febi&ie=UTF8&qid=1 535314254']

rules = {

    Rule(LinkExtractor(allow =(), restrict_xpaths = ('//*[h2]')),
                    callback = 'parse_item', follow = False)
}

def start_requests(self):
    yield scrapy.Request("https://www.amazon.es/s/ref=sr_pg_2?rh=n%3A1951051031%2Cn%3A2424922031%2Ck%3Afebi&page=1&keywords=febi&ie=UTF8&qid=1535314254",self.parse_item)

    for i in range(2,400):
        yield scrapy.Request("https://www.amazon.es/s/ref=sr_pg_2?rh=n%3A1951051031%2Cn%3A2424922031%2Ck%3Afebi&page="+str(i)+"&keywords=febi&ie=UTF8&qid=1535314254",self.parse_item)


def parse_item(self, response):

    for mercado in response.xpath('//*[h2]'):
        ml_item = MercadoItem()

        ml_item['articulo'] = response.xpath("@title").extract()[0]
        ml_item['precio'] = response.xpath("@href").extract()[0]

        yield ml_item

Luis Miguel · Answer 1 · 06 сентября 2018

Мне удалось импортировать более двух результатов. Посмотрите на код:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import CrawlSpider
import urllib
from mercado.items import MercadoItem


class MercadoSpider(CrawlSpider):
name = 'mercado'
item_count = 0
allowed_domain = ['https://www.amazon.es']
start_urls = ['https://www.amazon.es/s/ref=sr_pg_2rh=n%3A1951051031%2Cn%3A2424922031%2Ck%3Afebi&page=1&keywords=febi&ie=UTF8&qid=1 535314254']



def start_requests(self):
    yield scrapy.Request("https://www.amazon.es/s/ref=sr_pg_2?rh=n%3A1951051031%2Cn%3A2424922031%2Ck%3Afebi&page=1&keywords=febi&ie=UTF8&qid=1535314254",self.parse_item)

    for i in range(2,400):
        yield scrapy.Request("https://www.amazon.es/s/ref=sr_pg_2?rh=n%3A1951051031%2Cn%3A2424922031%2Ck%3Afebi&page="+str(i)+"&keywords=febi&ie=UTF8&qid=1535314254",self.parse_item)

def parse_item(self, response):


        namelist = response.xpath('//a[@class="a-link-normal s-access-detail-page  s-color-twister-title-link a-text-normal"]/@title').extract()
        #precio = response.xpath('//a/span[@class="a-size-base a-color-price s-price a-text-bold"]').extract()
        listlength = len(namelist)

        for i in range(0,listlength):
           ml_item = MercadoItem()
           ml_item['articulo'] = response.xpath('//a[@class="a-link-normal s-access-detail-page  s-color-twister-title-link a-text-normal"]/@title').extract()
           #ml_item['precio'] = response.xpath('//a/span[@class="a-size-base a-color-price s-price a-text-bold"]').extract()

        yield ml_item

Теперь в каждой строке CSV я получаю все результаты каждой страницы. Моя проблема сейчас в том, чтобы добавить цену каждой статьи. Я застрял здесь. Как я могу добавить его?

gangabass · Answer 2 · 06 сентября 2018

Вам необходимо выполнить поиск относительно элемента mercado:

def parse_item(self, response):

    for mercado in response.xpath('//*[h2]'):
        ml_item = MercadoItem()

        ml_item['articulo'] = mercado.xpath("@title").extract()[0]
        ml_item['precio'] = mercado.xpath("@href").extract()[0]

        yield ml_item

Scrapy только два результата на странице

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy только два результата на странице

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы