Отказ от ответственности: я довольно новичок в Scrapy.
Я уже сделал рабочую версию паука. Но требуется только одно изображение. Как сделать ссылку на изображение, взятое с новой страницы и добавленное к остальным элементам и добавить в базу данных? В этом случае столько раз, сколько будет изображений.
В конце кода я написал то, что хотел сделать. Я также сделал визуальную схему.
Код паука с комментариями в конце:
class MySpider(scrapy.Spider):
name = 'MySpider'
download_delay = 20
allowed_domains = ['example.com']
start_urls = ['https://example.com/page/']
visited_urls = []
#Take posts urls from page
def parse(self, response):
lua_script = """
function main(splash, args)
-- requires Splash 2.3
while not splash:select(".image-group") do
return {html=splash:html()}
if response.url not in self.visited_urls:
for post_link in response.xpath('//*[@id="search-results"]/div/div/article/ul/li/@data-url').extract():
url = urljoin(response.url, post_link)
yield SplashRequest(url, self.parse_post, endpoint='execute', args={'lua_source': lua_script})
next_pages = response.xpath('//*[contains(@rel, "next")]/@href').extract()
next_page = next_pages[-1]
next_page_url = urljoin(response.url+'/', next_page)
yield response.follow(next_page_url, callback=self.parse)
def parse_post(self, response):
items = MyItem()
link = response.xpath('//*[@property="og:url"]/@content').extract()
title = response.xpath('//*[@id="product-header"]/h1/text()').extract()
tags = response.xpath('//*[@id="widget-tags"]/div/a/@data-tag').extract()
category = ('Category')
price = response.xpath('//*[@name="twitter:data1"]/@content').extract()
items['link'] = ''.join(link).strip()
items['title'] = ''.join(title).strip()
items['tags'] = ', '.join(tags).strip()
items['category'] = ''.join(category).strip()
yield items
### Go to page(url = item['link'] + '/images/screenshot1')
# Take ImageLink = response.xpath('//*[@class="preview"]/img/@src').extract()
# Add previous items from def parse_post (link, title, tags, category, price)
# yield all items (link, title, tags, category, price, imagelink) (To add to the database)
### Go to page(url = item['link'] + '/images/screenshot2')
# Take ImageLink = response.xpath('//*[@class="preview"]/img/@src').extract()
# Add previous items from def parse_post (link, title, tags, category, price)
# yield all items (link, title, tags, category, price, imagelink) (To add to the database)
### Go to page(url = item['link'] + '/images/screenshot3')
# Take ImageLink = response.xpath('//*[@class="preview"]/img/@src').extract()
# Add previous items from def parse_post (link, title, tags, category, price)
# yield all items (link, title, tags, category, price, imagelink) (To add to the database)
# And do it as many times as there will be screenshots (A number of screenshots of different)