Question

Когда я пытался очистить элемент pissedconsumer.com с помощью следующего кода:

import scrapy

class PissedreviewsSpider(scrapy.Spider):

    name = 'pissedreviews'
    allowed_domains = ['pissedconsumer.com']
    start_urls = ['https://lazada-malaysia.pissedconsumer.com/review.html']

    def parse(self, response):

        selectors = response.xpath('//div[@class="f-component-info"]')
        for selector in selectors:
            title = selector.xpath('./h2/text()').get()
            print(title)

Вот журнал в оболочке при сканировании:

2020-04-11 19:00:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET 
https://lazada-malaysia.pissedconsumer.com/review.html> (referer: None) <Selector xpath='//div[@class="f-component-info"]' data='<div class="f component-info">\n      ...'>
None
<Selector xpath='//div[@class="f-component-info"]' data='<div class="f-component-info">\n      ...'>

Я уже установил для ROBOTSTXT_OBEY значение false и добавлены заголовки

Есть ли что-то еще, что я могу сделать, чтобы это работало?

Спасибо

carpa_jo · Answer 1 · 11 апреля 2020

Обновление, поскольку вопрос обновлен:

Вы пропустили / в своем xpath. Это должно быть title = selector.xpath('.//h2/text()').get()

Кто-нибудь может помочь заглянуть в мой scrapy xpath для этого сайта?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Кто-нибудь может помочь заглянуть в мой scrapy xpath для этого сайта?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов