Есть ли способ поиска по ключевому слову в Scrapy? - PullRequest
0 голосов
/ 25 июня 2019

Я очищаю веб-сайт, и мне нужно получить информацию о продавце с веб-сайта, но вместо того, чтобы указывать имя продавца, на нем есть логотип, поэтому я собирался попробовать очистить все изображение, но при ближайшем рассмотрении я заметил внутритот же код, что и в URL изображения, они имеют фактическое название компании, как вы можете видеть на картинке ниже.Есть ли способ поиска через эту строку HTML, чтобы получить только текст между "title =" и d ">" прямо сейчас, когда я очищаю его, я получаю весь URL-адрес изображения.

def parse(self, response):
        for game in response.css('div.card > div.row'):
            item = GameItem()
            item["Category"] = game.css("div.col-12.prod-cat a::text").get()
            item["Card_Name"]  = game.css("a.card-text::text").get()
            for buying_option in game.css('div.buying-options-table div.row:not(:first-child)'):
                item["Seller"] = buying_option.css("div.col-3.text-center.p-1 img").get()
                item["Condition"] = buying_option.css("div.col-3.text-center.p-1::text").get()
                item["Price"] = buying_option.css("div.col-2.text-center.p-1::text").get()
                yield item

Screenshot of website

1 Ответ

1 голос
/ 25 июня 2019

element::attr(value) выбирает атрибуты элемента. Например: a::attr('href') выбирает href атрибут элемента a. Попробуйте этот селектор, чтобы извлечь title значение:

response.css('div.row.align-center.py-2.m-auto > div.col-3.text-center.p-1 > img::attr(title)').get()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...