Привет, я новичок в области scrapy и пытаюсь удалить категории и URL-адреса категорий со страницы продукта по категориям от alibaba. Я пытаюсь очистить его и поместить в файл CSV.
Вот представление, которое я хочу дать при открытии в электронной таблице: -
categories categories_urls
Agricultural Growing Media its URL
Animal Products its URL
. .
. .
. .
Код: -
# -*- coding: utf-8 -*-
import scrapy
class AlibabaCatagoriesSpider(scrapy.Spider):
name = 'alibaba_catagories'
allowed_domains = ['alibaba.com']
start_urls = ['https://www.alibaba.com/Products?spm=a2700.8293689.scGlobalHomeHeader.352.2ce265aa7GOmOF']
def parse(self, response):
a = response.css('ul.sub-item-cont')
for catag in a:
item = {
'categories': catag.css('li>a::text').extract(),
'categories_url': catag.css('li>a::attr(href)').extract()
}
yield item
Проблемы
- \ n и пробелы очищаются при очистке категорий.
- Данные не очищаются в желаемом формате
Как вы можете помочь
- Измените код, чтобы мы могли получить
- Дайте хитрость, чтобы убрать \ n и пробелы при очистке
желаемый формат.