Передача ссылок продукта csv-файла на scrapy start_url - PullRequest
0 голосов
/ 06 августа 2020

Введение Мой сканер проделал хорошую работу и соскребал все ссылки на продукты, которые я хотел, и создал файл .csv, где все ссылки на продукты хранятся в столбце A, примерно, я получил ~ 5 тыс. Ссылок.

Задача Передача ссылок на продукты моим паукам start_urls захватить данные, которые я хочу

Моя цель - получить файл csv со всеми атрибутами только из "engli sh -urls", другого csv , со всеми атрибутами только "german-url"

Я читал вопрос о stackoverflow: ( Scrapy - Импорт Excel .csv как start_url , но ни одно из этих решений мне не помогло.

ErrorMSG Мой файл .py и мой файл csv, из которого я хочу прочитать информацию, хранятся в одном каталоге.

enter image description here

My current code

# -*- coding: utf-8 -*-
import csv
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ..items import OutofcsvItem



class DuifSpider(CrawlSpider):
    name = "duif"
    allowed_domains = []
    start_urls = []

    f = open('duiffinal.csv', 'r')
    for i in f:
        u = i.split('\n')
        start_urls.append(u[0])


    def parse_items(self, response):
        card = response.xpath('//div[@class="heading"]')

        if not card:
            print('No productlink', response.url)

        for a in card:
            items = OutofcsvItem()
            items['Link'] = response.url
            items['SKU'] = response.xpath('.//p[@class="desc"]/text()').get().strip()
            items['Title'] = response.xpath('.//h1[@class="product-title"]/text()').get()
            yield items
...