Question

Привет, я новичок в области scrapy и пытаюсь удалить категории и URL-адреса категорий со страницы продукта по категориям от alibaba. Я пытаюсь очистить его и поместить в файл CSV.

Вот представление, которое я хочу дать при открытии в электронной таблице: -

categories                           categories_urls

Agricultural Growing Media           its URL
Animal Products                      its URL
.                                    .
.                                    .
.                                    .

Код: -

# -*- coding: utf-8 -*-
import scrapy

class AlibabaCatagoriesSpider(scrapy.Spider):
name = 'alibaba_catagories'
allowed_domains = ['alibaba.com']
start_urls = ['https://www.alibaba.com/Products?spm=a2700.8293689.scGlobalHomeHeader.352.2ce265aa7GOmOF']

def parse(self, response):
    a = response.css('ul.sub-item-cont')
    for catag in a:
        item = {
           'categories': catag.css('li>a::text').extract(),
           'categories_url': catag.css('li>a::attr(href)').extract()
            }
        yield item

Проблемы

\ n и пробелы очищаются при очистке категорий.
Данные не очищаются в желаемом формате

Как вы можете помочь

Измените код, чтобы мы могли получить
Дайте хитрость, чтобы убрать \ n и пробелы при очистке

желаемый формат.

gangabass · Answer 1 · 02 сентября 2018

Довольно легко с помощью Scrapy:

def parse(self, response):

    for category_node in response.xpath('//ul[contains(@class, "sub-item-cont")]/li/a'):

        item = {
           'categories': category_node.xpath('./text()').extract_first().strip(),
           'categories_url': category_node.xpath('./@href').extract_first()
        }
        yield item

Uchiha AJ · Answer 2 · 01 сентября 2018

Вы должны использовать функцию normalize-space для удаления пробелов. Это не доступно или очень сложно с .css селекторами. Я рекомендую вам использовать XPath. Как описано здесь. normalize-space работает только с xpath, а не css-селектором

Пример Xpath с использованием функции normalize-space

 Product=   response.xpath('normalize-space(//*[@class="column one3"]/a/@href)').extract()

Yash Pokar · Answer 3 · 01 сентября 2018

попробуйте следующий селектор

list(map(lambda x: x.replace('\n', '').strip(), response.xpath('//*[@class="cg-main"]//*[contains(@class, "sub-item-cont")]//li/a[@href]/text()').extract()))

Akash Badam · Answer 4 · 31 августа 2018

import requests
from bs4 import BeautifulSoup
def parser():
    url = 'https://www.alibaba.com/Products?spm=a2700.8293689.scGlobalHomeHeader.352.2ce265aa7GOmOF'
    source_code = requests.get(url)
    plain_text = source_code.text
    soup = BeautifulSoup(plain_text, "html.parser")
    name_dict = {}
    for l in soup.find_all('li'):
        content = l.find('a')
        if content:
            href = content.get('href')
            name = content.get_text()
            if href.find('_pid') != -1:
            name_dict[name] = href
    return name_dict

Это сделано модулем BeautifulSoup, так как его легче очищать. Функция вернет словарь с ключом в качестве имени и значением в качестве URL.

Записать категории и его URL-адреса из alibaba и поместить его в два столбца

Код: -

Проблемы

Как вы можете помочь

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Записать категории и его URL-адреса из alibaba и поместить его в два столбца

Код: -

Проблемы

Как вы можете помочь

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы