Question

Скрипт (ниже) из этого учебника содержит два start_urls.

from scrapy.spider import Spider
from scrapy.selector import Selector

from dirbot.items import Website

class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    ]

    def parse(self, response):
        """
        The lines below is a spider contract. For more info see:
        http://doc.scrapy.org/en/latest/topics/contracts.html
        @url http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/
        @scrapes name
        """
        sel = Selector(response)
        sites = sel.xpath('//ul[@class="directory-url"]/li')
        items = []

        for site in sites:
            item = Website()
            item['name'] = site.xpath('a/text()').extract()
            item['url'] = site.xpath('a/@href').extract()
            item['description'] = site.xpath('text()').re('-\s[^\n]*\\r')
            items.append(item)

        return items

Но почему он царапает только эти 2 веб-страницы? Я вижу allowed_domains = ["dmoz.org"], но эти две страницы также содержат ссылки на другие страницы, которые находятся в домене dmoz.org! Почему это не царапает их тоже?

warvariuc · Answer 1 · 18 января 2012

start_urls Атрибут класса содержит стартовые URL - больше ничего.Если вы извлекли URL-адреса других страниц, которые хотите очистить, - получите из parse обратного вызова соответствующие запросы с [другим] обратным вызовом:

class Spider(BaseSpider):

    name = 'my_spider'
    start_urls = [
                'http://www.domain.com/'
    ]
    allowed_domains = ['domain.com']

    def parse(self, response):
        '''Parse main page and extract categories links.'''
        hxs = HtmlXPathSelector(response)
        urls = hxs.select("//*[@id='tSubmenuContent']/a[position()>1]/@href").extract()
        for url in urls:
            url = urlparse.urljoin(response.url, url)
            self.log('Found category url: %s' % url)
            yield Request(url, callback = self.parseCategory)

    def parseCategory(self, response):
        '''Parse category page and extract links of the items.'''
        hxs = HtmlXPathSelector(response)
        links = hxs.select("//*[@id='_list']//td[@class='tListDesc']/a/@href").extract()
        for link in links:
            itemLink = urlparse.urljoin(response.url, link)
            self.log('Found item link: %s' % itemLink, log.DEBUG)
            yield Request(itemLink, callback = self.parseItem)

    def parseItem(self, response):
        ...

Если вы все еще хотите настроить создание начальных запросов, переопределите метод BaseSpider.start_requests ()

Mohit Gupta · Answer 2 · 10 сентября 2013

start_urls содержат ссылки, с которых паук начинает ползать.Если вы хотите сканировать рекурсивно, вы должны использовать crawlspider и определить правила для этого.http://doc.scrapy.org/en/latest/topics/spiders.html посмотрите, например.

goh · Answer 3 · 18 января 2012

Если вы используете BaseSpider, внутри функции обратного вызова вы должны извлечь нужные URL-адреса самостоятельно и вернуть объект Request.

Если вы используете CrawlSpider, извлечение ссылок будет осуществляться правилами, а SgmlLinkExtractor связан с правилами.

Glenn · Answer 4 · 18 января 2012

У класса нет свойства rules. Взгляните на http://readthedocs.org/docs/scrapy/en/latest/intro/overview.html и найдите «правила», чтобы найти пример.

francisco · Answer 5 · 27 ноября 2014

Если вы используете правило для перехода по ссылкам (которое уже реализовано в scrapy), паук тоже будет их очищать. Я надеюсь, что помог ...

    from scrapy.contrib.spiders import BaseSpider, Rule
    from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
    from scrapy.selector import HtmlXPathSelector


    class Spider(BaseSpider):
        name = 'my_spider'
        start_urls = ['http://www.domain.com/']
        allowed_domains = ['domain.com']
        rules = [Rule(SgmlLinkExtractor(allow=[], deny[]), follow=True)]

     ...

Gavin · Answer 6 · 10 июля 2017

вы не написали функцию для раздачи URL-адресов того, что хотите получить. Таким образом, два способа reslolve.1. Используйте правило (crawlspider).функция обратного вызова.

Scrapy start_urls

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy start_urls

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов