Question

Я могу использовать два разных метода для извлечения заголовка статьи: xpath vs. css.Они дадут мне такие же результаты, но есть одно отличие.Использование xpath сохранит данные (файл json) в квадратных скобках ["Some Title"], а селектор css просто сохранит данные без скобок "Some Title".Я на самом деле не хочу хранить данные в скобках. Как мне это сделать с помощью xpath?

Вот мой код для извлечения заголовка документа:

CSS Selector

def parse_article(self, response):
    def extract_with_css(query):
        return response.css(query).get(default='').strip() 


    yield {
        'title': extract_with_css('div#title h2::text')           
          }

Xpath

 def parse_article(self, response):
    def extract_with_xpath(query):
        return response.xpath(query).extract() 


    yield {
        'title': extract_with_xpath('//div[@id="title"]/h2/text()') 
          }

vezunchik · Answer 1 · 13 февраля 2019

Измените свой код с extract() на get():

def extract_with_xpath(query):
    return response.xpath(query).get(default='').strip()

Метод extract вернет все совпадения, а get только первый.

Селектор Xpath и CSS в Scrapy: почему данные хранятся по-разному?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Селектор Xpath и CSS в Scrapy: почему данные хранятся по-разному?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов