Создание общего паука-скрапа - PullRequest
16 голосов
/ 22 марта 2012

Мой вопрос на самом деле заключается в том, как сделать то же самое, что и предыдущий вопрос, но в Scrapy 0.14.

Использование одного паука Scrapy для нескольких веб-сайтов

В основномУ меня есть графический интерфейс, который принимает параметры, такие как домен, ключевые слова, имена тегов и т. Д., И я хочу создать общий паук для сканирования этих доменов по этим ключевым словам в этих тегах.Я читал противоречивые вещи, используя старые версии scrapy, либо переопределяя класс менеджера пауков, либо динамически создавая пауков.Какой метод предпочтителен и как мне реализовать и вызвать правильное решение?Заранее спасибо.

Вот код, который я хочу сделать универсальным.Он также использует BeautifulSoup.Я спарил его так, надеюсь, не удалил ничего важного, чтобы понять это.

class MySpider(CrawlSpider):

name = 'MySpider'
allowed_domains = ['somedomain.com', 'sub.somedomain.com']
start_urls = ['http://www.somedomain.com']

rules = (
    Rule(SgmlLinkExtractor(allow=('/pages/', ), deny=('', ))),

    Rule(SgmlLinkExtractor(allow=('/2012/03/')), callback='parse_item'),
)

def parse_item(self, response):
    contentTags = []

    soup = BeautifulSoup(response.body)

    contentTags = soup.findAll('p', itemprop="myProp")

    for contentTag in contentTags:
        matchedResult = re.search('Keyword1|Keyword2', contentTag.text)
        if matchedResult:
            print('URL Found: ' + response.url)

    pass

Ответы [ 5 ]

2 голосов
/ 09 ноября 2014

Я использую Scrapy Extensions подход к , расширяющий класс Spider до класса с именем Masterspider, который включает в себя универсальный парсер.

Ниже приведена очень "короткая" версия моего расширенного синтаксического анализатора. Обратите внимание, что вам нужно реализовать средство визуализации с движком Javascript (например, Selenium или BeautifulSoup) a, как только вы начнете работать со страницами, используя AJAX. И много дополнительного кода для управления различиями между сайтами (сбор данных на основе заголовка столбца, обработка относительных и длинных URL-адресов, управление различными типами контейнеров данных и т. Д.).

Что интересно в подходе Scrapy Extension, так это то, что вы все равно можете переопределить универсальный метод синтаксического анализатора, если что-то не подходит, но мне это никогда не приходилось. Класс Masterspider проверяет, были ли созданы некоторые методы (например, parser_start, next_url_parser ...) в классе паука, специфичном для сайта, чтобы разрешить управление спецификациями: отправить форму, создать запрос next_url из элементов на странице и т. Д. 1013 *

Поскольку я перебираю очень разные сайты, всегда есть особенности для управления. Вот почему я предпочитаю сохранять класс для каждого очищенного сайта, чтобы я мог написать некоторые конкретные методы для его обработки (предварительная / постобработка, кроме PipeLines, Генераторы запросов ...).

masterspider / SiteSpider / settings.py

EXTENSIONS = {
    'masterspider.masterspider.MasterSpider': 500
}

masterspider / masterspdier / masterspider.py

# -*- coding: utf8 -*-
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.http import Request
from sitespider.items import genspiderItem

class MasterSpider(Spider):

    def start_requests(self):
        if hasattr(self,'parse_start'): # First page requiring a specific parser
            fcallback = self.parse_start
        else:
            fcallback = self.parse
        return [ Request(self.spd['start_url'],
                     callback=fcallback,
                     meta={'itemfields': {}}) ]

    def parse(self, response):
        sel = Selector(response)
        lines = sel.xpath(self.spd['xlines'])
        # ...
        for line in lines:
            item = genspiderItem(response.meta['itemfields'])               
            # ...
            # Get request_url of detailed page and scrap basic item info
            # ... 
            yield  Request(request_url,
                   callback=self.parse_item,
                   meta={'item':item, 'itemfields':response.meta['itemfields']})

        for next_url in sel.xpath(self.spd['xnext_url']).extract():
            if hasattr(self,'next_url_parser'): # Need to process the next page URL before?
                yield self.next_url_parser(next_url, response)
            else:
                yield Request(
                    request_url,
                    callback=self.parse,
                    meta=response.meta)

    def parse_item(self, response):
        sel = Selector(response)
        item = response.meta['item']
        for itemname, xitemname in self.spd['x_ondetailpage'].iteritems():
            item[itemname] = "\n".join(sel.xpath(xitemname).extract())
        return item

masterspider / SiteSpider / пауки / somesite_spider.py

# -*- coding: utf8 -*-
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.http import Request
from sitespider.items import genspiderItem
from masterspider.masterspider import MasterSpider

class targetsiteSpider(MasterSpider):
    name = "targetsite"
    allowed_domains = ["www.targetsite.com"]
    spd = {
        'start_url' : "http://www.targetsite.com/startpage", # Start page
        'xlines' : "//td[something...]",
        'xnext_url' : "//a[contains(@href,'something?page=')]/@href", # Next pages
        'x_ondetailpage' : {
            "itemprop123" :      u"id('someid')//text()"
            }
    }

#     def next_url_parser(self, next_url, response): # OPTIONAL next_url regexp pre-processor
#          ...
2 голосов
/ 24 октября 2012

Вы можете создать паука во время выполнения, который оценивается интерпретатором. Этот фрагмент кода может быть оценен во время выполнения следующим образом:

a = open("test.py")
from compiler import compile
d = compile(a.read(), 'spider.py', 'exec')
eval(d)

MySpider
<class '__main__.MySpider'>
print MySpider.start_urls
['http://www.somedomain.com']
1 голос
/ 27 сентября 2012

Вместо того, чтобы переменные name, allowed_domains, start_urls и rules были присоединены к классу, вы должны написать MySpider.__init__, вызвать CrawlSpider.__init__, передав необходимые аргументы и установив name, allowed_domains и т. Д. За объект. MyProp и ключевые слова также должны быть установлены в вашем __init__. Так что в итоге у вас должно получиться что-то вроде ниже. Вам не нужно добавлять name к аргументам, поскольку name устанавливается самим BaseSpider из kwargs:

class MySpider(CrawlSpider):

    def __init__(self, allowed_domains=[], start_urls=[], 
            rules=[], findtag='', finditemprop='', keywords='', **kwargs):
        CrawlSpider.__init__(self, **kwargs)
        self.allowed_domains = allowed_domains
        self.start_urls = start_urls
        self.rules = rules
        self.findtag = findtag
        self.finditemprop = finditemprop
        self.keywords = keywords

    def parse_item(self, response):
        contentTags = []

        soup = BeautifulSoup(response.body)

        contentTags = soup.findAll(self.findtag, itemprop=self.finditemprop)

        for contentTag in contentTags:
            matchedResult = re.search(self.keywords, contentTag.text)
            if matchedResult:
                print('URL Found: ' + response.url)
0 голосов
/ 16 февраля 2015

Что касается сканирования определенных доменов, переданных в качестве аргументов, я просто переопределяю Spider.__init__:

class MySpider(scrapy.Spider):
    """
    This spider will try to crawl whatever is passed in `start_urls` which
    should be a comma-separated string of fully qualified URIs.

    Example: start_urls=http://localhost,http://example.com
    """
    def __init__(self, name=None, **kwargs):
        if 'start_urls' in kwargs:
            self.start_urls = kwargs.pop('start_urls').split(',')
        super(Spider, self).__init__(name, **kwargs)
0 голосов
/ 08 июля 2012

Я не уверен, какой путь предпочтительнее, но я расскажу вам, что я делал в прошлом. Я ни в коем случае не уверен, что это лучший (или правильный) способ сделать это, и мне было бы интересно узнать, что думают другие люди.

Обычно я просто перезаписываю родительский класс (CrawlSpider) и передаю аргументы, а затем инициализирую родительский класс с помощью super(MySpider, self).__init__() из моей собственной функции инициализации или , которую я извлекаю из база данных, в которой я сохранил список ссылок для добавления к start_urls ранее.

...