Когда я пытался очистить элемент pissedconsumer.com с помощью следующего кода:
import scrapy
class PissedreviewsSpider(scrapy.Spider):
name = 'pissedreviews'
allowed_domains = ['pissedconsumer.com']
start_urls = ['https://lazada-malaysia.pissedconsumer.com/review.html']
def parse(self, response):
selectors = response.xpath('//div[@class="f-component-info"]')
for selector in selectors:
title = selector.xpath('./h2/text()').get()
print(title)
Вот журнал в оболочке при сканировании:
2020-04-11 19:00:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET
https://lazada-malaysia.pissedconsumer.com/review.html> (referer: None) <Selector xpath='//div[@class="f-component-info"]' data='<div class="f component-info">\n ...'>
None
<Selector xpath='//div[@class="f-component-info"]' data='<div class="f-component-info">\n ...'>
Я уже установил для ROBOTSTXT_OBEY значение false и добавлены заголовки
Есть ли что-то еще, что я могу сделать, чтобы это работало?
Спасибо