Question

Я занимаюсь веб-очисткой, но не получаю ожидаемого результата.

Я изучаю веб-очистку и все еще начинаю. Проблема в том, что не все цитаты очищаются.

import scrapy

class QuoteSpider(scrapy.Spider):
    name = 'Quotes'
    start_urls = [
    'http://quotes.toscrape.com/'
    ]
    def parse(self, response):
        for quotes in response.selector.xpath("//div[@class='quote']"):
            yield{
            'text':quotes.xpath("//span[@class='text']/text()").extract_first(),
            'author':quotes.xpath("//small[@class='author']/text()").extract_first(),
            'tags':quotes.xpath("//div[@class='tags']/child::a/text()").extract(),
            }

Я ожидаю, что все цитаты на первой странице должны быть очищены. Вместо этого я получаю ту же цитату и автора снова и снова, но он извлекает все теги каждый раз. Я все еще новичок. Я буду признателен за помощь.

eLRuLL · Answer 1 · 17 октября 2019

это распространенная ошибка при использовании xpath для вложенных селекторов.

Когда вы используете xpath для уже извлеченного селектора, если вы хотите использовать то, что вы уже извлекли, как корень для нового селектора xpath, вам нужно запустить xpath с .. Если вы этого не сделаете, он просто будет использовать весь DOM, как обычно.

Так что просто измените последние строки на:

{
    'text':quotes.xpath(".//span[@class='text']/text()").extract_first(),
    'author':quotes.xpath(".//small[@class='author']/text()").extract_first(),
    'tags':quotes.xpath(".//div[@class='tags']/child::a/text()").extract(),
}

Не получить ожидаемый результат в скрапе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Не получить ожидаемый результат в скрапе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов