Извлечение ссылок с заголовком и URL с выбранными ссылками, используя scrapy - PullRequest
0 голосов
/ 24 февраля 2020

Я хочу извлечь только 10 ссылок с этого сайта https://dmoz-odp.org/Sports/Events/ эти ссылки можно найти внизу страницы, некоторые из них - AOL, Google и др. c

Вот мой код:

import scrapy

class cr(scrapy.Spider):

 name = 'prcr'

    start_urls = ['https://dmoz-odp.org/Sports/Events/']

    def parse(self, response):
        items = '.alt-sites'
        for i in response.css(items):
            title=response.css('a::attr(title)').extract()
            link=response.css('a::attr(href)').extract()
            yield dict(title=title, titletext=link)

это прекрасно работает, но мне нужно извлечь только последние 10 ссылок, поэтому, пожалуйста, расскажите, как это сделать?

1 Ответ

0 голосов
/ 24 февраля 2020

Я внес несколько изменений в ваш метод синтаксического анализа (проверьте код ниже), и это должно работать просто отлично,

    def parse(self, response):

    items = '.alt-sites a'

    for i in response.css(items):
        title = i.css('::text').extract_first()
        link = i.css('::attr(href)').extract_first()
        yield dict(title=title, title_link=link)

надеюсь, это поможет вам.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...