Соскоблите продукты со скрапа и следуйте нумерации страниц - PullRequest
0 голосов
/ 08 сентября 2018

Я пытаюсь очистить данные с помощью скрапа из Alibaba Категория «Сельское хозяйство и выращивание средств» . Вы можете Нажмите здесь , чтобы увидеть страницу просмотра.

Данные, которые я хочу почистить со страницы: Product_name, Price, Min_order, Company Name, Url of image .

На рисунке показано, что я хочу очистить enter image description here

мой код Python

# -*- coding: utf-8 -*-
import scrapy


class AlibabaSpider(scrapy.Spider):
    name = 'alibaba'
    allowed_domains = ['alibaba.com']
    start_urls = ['https://www.alibaba.com/catalog/agricultural-growing-media_cid144?spm=a2700.9161164.1.2.4a934e02VlSXiW']

def parse(self, response):
    for products in response.xpath('.//div[contains(@class, "m-gallery-product-item-wrap")]/div/div'):
        item = {
            'product_name': products.xpath('.//h2/a/@title').extract_first(),
            'price':  products.xpath('(.//div[@class="price"]/b/text())').extract_first().strip(),
            'min_order': products.xpath('.//div[@class="min-order"]/b/text()').extract_first(),
            'company_name': products.xpath('.//div[@class="stitle util-ellipsis"]/a/@title').extract_first(),
            'prod_detail_link': products.xpath('.//div[@class="item-img-inner"]/a/@href').extract_first()
            #'response_rate': products.xpath('.//i[@class="ui2-icon ui2-icon-skip"]/text()').extract_first(),
            #'image_url': products.xpath('.//div[@class=""]/').extract_first(),
         }
        yield item

Проблемы

  • Этот код вырезал только 21 из 36 пунктов со страницы
  • Как перейти по нумерации страниц?

Как вы можете помочь

  • Измените код, чтобы все данные были удалены со страницы.
  • Измените код, чтобы следовать нумерации страниц и продолжать чистку.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...