Я использую Scrapy для сканирования некоторых страниц. Я ссылаюсь на таблицу Excel для start_urls и хочу, чтобы эти точные начальные URL-адреса появлялись в результатах, а не перенаправленные URL-адреса. Мне нужны оригиналы для обработки поиска в Excel.
Проблема в том, что мне кажется, что я могу получить только вывод, который дает URL назначения.
Мой код выглядит следующим образом;
from scrapy.spiders import Spider
from scrapy.selector import Selector
from ICcom5.items import ICcom5Item
from scrapy.linkextractors import LinkExtractor
from scrapy.utils.response import get_base_url
from scrapy.spiders import CSVFeedSpider
from scrapy.http import Request
from scrapy.loader import ItemLoader
from scrapy.item import Item, Field
import requests
import csv
import sys
class MySpider(Spider):
name = "ICcom5"
start_urls = [l.strip() for l in open('items5.csv').readlines()]
def parse(self, response):
item = Item()
titles = response.xpath('//div[@class="jobsearch-JobMetadataFooter"]')
items = []
for titles in titles:
item = ICcom5Item()
home_url = ("http://www.indeed.co.uk")
item ['_pageURL'] = response.request.url
item ['description'] = ' '.join(titles.xpath('//div[@class="jobsearch-jobDescriptionText"]//text()').extract())
item ['role_title_link'] = titles.xpath('//span[@id="originalJobLinkContainer"]/a/@href').extract()
items.append(item)
return items
Довольно простой код, но я изо всех сил пытаюсь понять, что я могу сделать из документов Scrapy.
Я изменил код в соответствии с рекомендациями, но я все еще я не получаю исходные URL из моей исходной таблицы. Примеры URL приведены ниже:
https://www.indeed.co.uk/rc/clk?jk=a47eb72131f3d588&fccid=c7414b794cb89c1c&vjs=3
https://www.indeed.co.uk/rc/clk?jk=8c7f045caddb116d&fccid=473601b0f30a6c9c&vjs=3
https://www.indeed.co.uk/company/Agilysts-Limited/jobs/Back-End-Java-Developer-3ec6efc3ebc256c5?fccid=d1f7896a8bd9f15e&vjs=3