Я недавно начал использовать Scrapy, так что я не настолько опытен в этом, так что это действительно вопрос новичка.
Я выбрал какое-то случайное соглашение для практики, я выбрал имена и номера кабин, но я также хочу ссылки от компаний, которые находятся в новом окне, я нашел и сохранил ссылку из якорных тегов, но я не знаю, как очистить эти новые ссылки, любая помощь или направление будут хороши
import scrapy
class ConventionSpider(scrapy.Spider):
name = 'convention'
allowed_domains = ['events.jspargo.com/ASCB18/Public/Exhibitors.aspx?sortMenu=102003']
start_urls = ['https://events.jspargo.com/ASCB18/Public/Exhibitors.aspx?sortMenu=102003']
def parse(self, response):
name = response.xpath('//*[@class="companyName"]')
number = response.xpath('//*[@class="boothLabel"]')
link = response.xpath('//*[@class="companyName"]')
for row, row1, row2 in zip(name, number, link):
company = row.xpath('.//*[@class="exhibitorName"]/text()').extract_first()
booth_num = row1.xpath('.//*[@class="boothLabel aa-mapIt"]/text()').extract_first()
url = row2.xpath('.//a/@href').extract_first()
yield {'Company': company,'Booth Number': booth_num}