Я новичок в Scrapy.Я написал этот скрипт:
class MySpider(scrapy.Spider):
#identity
name="mysite"
#Request
def start_requests(self):
url= 'example.com/doc/file/vid'
yield scrapy.Request(url=url, callback=self.parse)
#Response
def parse(self, response):
loader = ItemLoader(item=VideoInfoItem(), response=response)
for info in response.selector.xpath("//div[contains(@class, 'thumb-list__item')]"):
loader= ItemLoader(item=InfoItem(), selector=info, response=response)
loader.add_xpath('text', ".//div[@class='info']/a")
loader.add_xpath('url', ".//div[@class='info']/a/@href")
url = video.xpath(".//a[@class='image-container], callback=self.parse_video)
Когда я снова запускаю скрипт, я хочу пропустить дубликаты перед #Response.Я пробовал несколько вещей, но не получилось.