Я только начал изучать Python и Scrapy.
Мой первый проект - сканирование информации на веб-сайте, содержащем информацию о веб-безопасности. Но когда я запускаю это с помощью cmd, он говорит, что
просканировано 0 страниц (при 0 страницах / мин), очищено 0 элементов (при 0 элементах / мин)
и, кажется, ничего не выходит. Буду признателен, если кто-нибудь добрый решит мою проблему.
Вот мой файл паука:
Пункты:
import scrapy
class ReporteinmobiliarioItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
titulo = scrapy.Field()
precioAlquiler = scrapy.Field()
ubicacion = scrapy.Field()
descripcion = scrapy.Field()
superficieTotal = scrapy.Field()
superficieCubierta = scrapy.Field()
antiguedad = scrapy.Field()
pass
Паук:
import scrapy
from scrapy.spider import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.exceptions import CloseSpider
from reporteInmobiliario.items import ReporteinmobiliarioItem
class reporteInmobiliario(CrawlSpider):
name = 'reporteInmobiliario'
allowed_domains = ['zonaprop.com.ar/']
item_count = 0
start_urls = ['https://www.zonaprop.com.ar/terrenos-alquiler-capital-federal.html']
rules = {
# Para cada item
Rule(LinkExtractor(allow = (), restrict_xpaths = ('//li[@class="pagination-action-next"]/a'))),
Rule(LinkExtractor(allow = (), restrict_xpaths = ('//h4[@class="aviso-data-title"]')),
callback = 'parse_item', follow = False)
}
def parse_item(self,response):
rp_item = ReporteinmobiliarioItem()
rp_item['titulo']= response.xpath('//div[@class="card-title"]/text()').extract()
rp_item['precioAlquiler'] = response.xpath('normalize-space(//*[@id="layout-content"]/div[1]/div[1]/div[2]/div[2]/div[1]/div[2]/p/strong)').extract()
rp_item['ubicacion'] = response.xpath('normalize-space(//*[@id="map"]/div[1]/div/ul/li)').extract()
rp_item['descripcion'] = response.xpath('normalize-space(//*[@id="id-descipcion-aviso"]').extract()
rp_item['superficieTotal'] = response.xpath('//*[@id="layout-content"]/div[1]/div[1]/div[2]/div[1]/div[4]/div[1]/div[1]/div/ul/li[4]/span)').extract()
rp_item['superficieCubierta'] = response.xpath('normalize-space(//*[@id="layout-content"]/div[1]/div[1]/div[2]/div[1]/div[4]/div[1]/div[1]/div/ul/li[5]/span)').extract()
rp_item['antiguedad'] = response.xpath('normalize-space(//*[@id="layout-content"]/div[1]/div[1]/div[2]/div[1]/div[4]/div[1]/div[1]/div/ul/li[6]/span)').extract()
self.item_count += 1
if self.item_count > 5:
raise CloseSpider('item_exceeded')
yield rp_item