Введение Мой сканер проделал хорошую работу и соскребал все ссылки на продукты, которые я хотел, и создал файл .csv, где все ссылки на продукты хранятся в столбце A, примерно, я получил ~ 5 тыс. Ссылок.
Задача Передача ссылок на продукты моим паукам start_urls захватить данные, которые я хочу
Моя цель - получить файл csv со всеми атрибутами только из "engli sh -urls", другого csv , со всеми атрибутами только "german-url"
Я читал вопрос о stackoverflow: ( Scrapy - Импорт Excel .csv как start_url , но ни одно из этих решений мне не помогло.
ErrorMSG Мой файл .py и мой файл csv, из которого я хочу прочитать информацию, хранятся в одном каталоге.
My current code
# -*- coding: utf-8 -*-
import csv
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ..items import OutofcsvItem
class DuifSpider(CrawlSpider):
name = "duif"
allowed_domains = []
start_urls = []
f = open('duiffinal.csv', 'r')
for i in f:
u = i.split('\n')
start_urls.append(u[0])
def parse_items(self, response):
card = response.xpath('//div[@class="heading"]')
if not card:
print('No productlink', response.url)
for a in card:
items = OutofcsvItem()
items['Link'] = response.url
items['SKU'] = response.xpath('.//p[@class="desc"]/text()').get().strip()
items['Title'] = response.xpath('.//h1[@class="product-title"]/text()').get()
yield items