У меня проблемы с очисткой этой страницы: http://maps.kalkaskacounty.net/propertysearch.asp?PDBsearch=setdo
Мой скребок получает все ссылки на подстраницы и правильно их очищает (25 результатов), но не правильно отправляет запрос формы, чтобы получить следующие 25 результатов для очистки (и т. Д.). Буду признателен за любую помощь, которую может предложить каждый. Спасибо!
import scrapy
class ParcelScraperSpider(scrapy.Spider):
name = 'parcel_scraper'
start_urls = ['http://maps.kalkaskacounty.net/propertysearch.asp?PDBsearch=setdo',
'http://maps.kalkaskacounty.net/,']
def parse(self,response):
for href in response.css('a.PDBlistlink::attr(href)'):
yield response.follow(href, self.parse_details)
def next_group(self,response):
return scrapy.FormRequest.from_response(
response,
formdata={'DBVpage':'next'},
formname={'PDBquery'},
callback=self.parse,
)
def parse_details(self,response):
yield {
'owner_name': response.xpath('//td[contains(text(),"Owner Name")]/following::td[1]/text()').extract_first(),
'jurisdiction': response.xpath('//td[contains(text(),"Jurisdiction")]/following::td[1]/text()').extract_first(),
'property_street': response.xpath('//td[contains(text(),"Property Address")]/following::td[1]/div[1]/text()').extract_first(),
'property_csz': response.xpath('//td[contains(text(),"Property Address")]/following::td[1]/div[2]/text()').extract_first(),
'owner_street': response.xpath('//td[contains(text(),"Owner Address")]/following::td[1]/div[1]/text()').extract_first(),
'owner_csz': response.xpath('//td[contains(text(),"Owner Address")]/following::td[1]/div[2]/text()').extract_first(),
'current_tax_value': response.xpath('//td[contains(text(),"Current Taxable Value")]/following::td[1]/text()').extract_first(),
'school_district': response.xpath('//td[contains(text(),"School District")]/following::td[1]/text()').extract_first(),
'current_assess': response.xpath('//td[contains(text(),"Current Assessment")]/following::td[1]/text()').extract_first(),
'current_sev': response.xpath('//td[contains(text(),"Current S.E.V.")]/following::td[1]/text()').extract_first(),
'current_pre': response.xpath('//td[contains(text(),"Current P.R.E.")]/following::td[1]/text()').extract_first(),
'prop_class': response.xpath('//td[contains(text(),"Current Property Class")]/following::td[1]/text()').extract_first(),
'tax_desc': response.xpath('//h3[contains(text(),"Tax Description")]/following::div/text()').extract_first()
}