Кто-нибудь может помочь заглянуть в мой scrapy xpath для этого сайта? - PullRequest
0 голосов
/ 11 апреля 2020

Когда я пытался очистить элемент pissedconsumer.com с помощью следующего кода:

import scrapy

class PissedreviewsSpider(scrapy.Spider):

    name = 'pissedreviews'
    allowed_domains = ['pissedconsumer.com']
    start_urls = ['https://lazada-malaysia.pissedconsumer.com/review.html']

    def parse(self, response):

        selectors = response.xpath('//div[@class="f-component-info"]')
        for selector in selectors:
            title = selector.xpath('./h2/text()').get()
            print(title)

Вот журнал в оболочке при сканировании:

2020-04-11 19:00:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET 
https://lazada-malaysia.pissedconsumer.com/review.html> (referer: None) <Selector xpath='//div[@class="f-component-info"]' data='<div class="f component-info">\n      ...'>
None
<Selector xpath='//div[@class="f-component-info"]' data='<div class="f-component-info">\n      ...'>

Я уже установил для ROBOTSTXT_OBEY значение false и добавлены заголовки

Есть ли что-то еще, что я могу сделать, чтобы это работало?

Спасибо

1 Ответ

0 голосов
/ 11 апреля 2020

Обновление, поскольку вопрос обновлен:

Вы пропустили / в своем xpath. Это должно быть title = selector.xpath('.//h2/text()').get()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...