Question

У меня есть проект Scrapy, который содержит несколько пауков. Можно ли как-то определить, какие конвейеры использовать для какого паука? Не все конвейеры, которые я определил, применимы к каждому пауку.

Спасибо

Mirage · Answer 1 · 07 января 2016

Просто удалите все конвейеры из основных настроек и используйте это внутри паука.

Это определит конвейер для пользователя на паука

class testSpider(InitSpider):
    name = 'test'
    custom_settings = {
        'ITEM_PIPELINES': {
            'app.MyPipeline': 400
        }
    }

mstringer · Answer 2 · 05 января 2013

Основываясь на решении от Пабло Хоффмана , вы можете использовать следующий декоратор для метода process_item объекта Pipeline, чтобы он проверял атрибут pipeline вашего паука на предмет того, является ли он должно быть выполнено. Например:

def check_spider_pipeline(process_item_method):

    @functools.wraps(process_item_method)
    def wrapper(self, item, spider):

        # message template for debugging
        msg = '%%s %s pipeline step' % (self.__class__.__name__,)

        # if class is in the spider's pipeline, then use the
        # process_item method normally.
        if self.__class__ in spider.pipeline:
            spider.log(msg % 'executing', level=log.DEBUG)
            return process_item_method(self, item, spider)

        # otherwise, just return the untouched item (skip this step in
        # the pipeline)
        else:
            spider.log(msg % 'skipping', level=log.DEBUG)
            return item

    return wrapper

Для корректной работы этого декоратора у паука должен быть атрибут конвейера с контейнером объектов конвейера, которые вы хотите использовать для обработки элемента, например:

class MySpider(BaseSpider):

    pipeline = set([
        pipelines.Save,
        pipelines.Validate,
    ])

    def parse(self, response):
        # insert scrapy goodness here
        return item

А затем в pipelines.py файле:

class Save(object):

    @check_spider_pipeline
    def process_item(self, item, spider):
        # do saving here
        return item

class Validate(object):

    @check_spider_pipeline
    def process_item(self, item, spider):
        # do validating here
        return item

Все объекты конвейера по-прежнему должны быть определены в ITEM_PIPELINES в настройках (в правильном порядке - было бы неплохо изменить их, чтобы порядок также можно было указывать на пауке).

eLRuLL · Answer 3 · 31 октября 2015

Другие решения, приведенные здесь, хороши, но я думаю, что они могут быть медленными, потому что мы на самом деле не используем конвейер на паука, вместо этого мы проверяем, существует ли конвейер каждый раз, когда элемент возвращается (а в некоторых случаях это может достигать миллионов).

Хороший способ полностью отключить (или включить) функцию для каждого паука - использовать custom_setting и from_crawler для всех расширений, таких как:

pipelines.py

from scrapy.exceptions import NotConfigured

class SomePipeline(object):
    def __init__(self):
        pass

    @classmethod
    def from_crawler(cls, crawler):
        if not crawler.settings.getbool('SOMEPIPELINE_ENABLED'):
            # if this isn't specified in settings, the pipeline will be completely disabled
            raise NotConfigured
        return cls()

    def process_item(self, item, spider):
        # change my item
        return item

settings.py

ITEM_PIPELINES = {
   'myproject.pipelines.SomePipeline': 300,
}
SOMEPIPELINE_ENABLED = True # you could have the pipeline enabled by default

spider1.py

class Spider1(Spider):

    name = 'spider1'

    start_urls = ["http://example.com"]

    custom_settings = {
        'SOMEPIPELINE_ENABLED': False
    }

Когда вы проверяете, мы указали custom_settings, который будет переопределять вещи, указанные в settings.py, и мы отключаем SOMEPIPELINE_ENABLED для этого паука.

Теперь, когда вы запустите этого паука, проверьте что-то вроде:

[scrapy] INFO: Enabled item pipelines: []

Теперь скрап полностью отключил трубопровод, не беспокоясь о его существовании на протяжении всего пробега. Проверьте, что это также работает для scrapy extensions и middlewares.

Francis Avila · Answer 4 · 04 декабря 2011

Я могу придумать как минимум четыре подхода:

Используйте разные проекты scrapy для набора пауков + трубопроводов (может быть уместно, если ваши пауки достаточно разные, чтобы быть в разных проектах)
В командной строке Scrapy Tool измените настройку конвейера с помощью scrapy settings между каждым вызовом вашего паука
Изолируйте своих пауков в их собственных командах scrapy tool и определите default_settings['ITEM_PIPELINES'] в вашем классе команд для списка конвейеров, который вы хотите для этой команды. См. строку 6 этого примера .
В самих конвейерных классах пусть process_item() проверит, против какого паука он работает, и ничего не делает, если его следует игнорировать для этого паука. Посмотрите пример использования ресурсов для каждого паука , чтобы начать. (Это кажется уродливым решением, поскольку оно тесно связывает пауков и конвейеры предметов. Возможно, вам не следует использовать это.)

pad · Answer 5 · 27 декабря 2014

Вы можете использовать атрибут name паука в вашем конвейере

class CustomPipeline(object)

    def process_item(self, item, spider)
         if spider.name == 'spider1':
             # do something
             return item
         return item

Определение всех конвейеров таким образом может достичь того, что вы хотите.

Ryan Stefan · Answer 6 · 02 февраля 2019

Вы можете просто установить настройки конвейеров элементов внутри паука следующим образом:

class CustomSpider(Spider):
    name = 'custom_spider'
    custom_settings = {
        'ITEM_PIPELINES': {
            '__main__.PagePipeline': 400,
            '__main__.ProductPipeline': 300,
        },
        'CONCURRENT_REQUESTS_PER_DOMAIN': 2
    }

Затем я могу разделить конвейер (или даже использовать несколько конвейеров), добавив значение в загрузчик / возвращенныйпредмет, который определяет, какая часть паука отправила предметы.Таким образом, я не получу никаких исключений KeyError и знаю, какие элементы должны быть доступны.

    ...
    def scrape_stuff(self, response):
        pageloader = PageLoader(
                PageItem(), response=response)

        pageloader.add_xpath('entire_page', '/html//text()')
        pageloader.add_value('item_type', 'page')
        yield pageloader.load_item()

        productloader = ProductLoader(
                ProductItem(), response=response)

        productloader.add_xpath('product_name', '//span[contains(text(), "Example")]')
        productloader.add_value('item_type', 'product')
        yield productloader.load_item()

class PagePipeline:
    def process_item(self, item, spider):
        if item['item_type'] == 'product':
            # do product stuff

        if item['item_type'] == 'page':
            # do page stuff

NashGC · Answer 7 · 21 июня 2019

Простое, но все же полезное решение.

Код паука

    def parse(self, response):
        item = {}
        ... do parse stuff
        item['info'] = {'spider': 'Spider2'}

код трубопровода

    def process_item(self, item, spider):
        if item['info']['spider'] == 'Spider1':
            logging.error('Spider1 pipeline works')
        elif item['info']['spider'] == 'Spider2':
            logging.error('Spider2 pipeline works')
        elif item['info']['spider'] == 'Spider3':
            logging.error('Spider3 pipeline works')

Надеюсь, это сэкономит вам время!

Wade · Answer 8 · 23 октября 2018

мы можем использовать некоторые условия в конвейере, как это

    # -*- coding: utf-8 -*-
from scrapy_app.items import x

class SaveItemPipeline(object):
    def process_item(self, item, spider):
        if isinstance(item, x,):
            item.save()
        return item

Nanhe Kumar · Answer 9 · 30 июня 2016

Я использую два конвейера, один для загрузки изображений (MyImagesPipeline) и второй для сохранения данных в mongodb (MongoPipeline).

предположим, у нас много пауков (spider1, spider2, ...........), в моем примере spider1 и spider5 не могут использовать MyImagesPipeline

settings.py

ITEM_PIPELINES = {'scrapycrawler.pipelines.MyImagesPipeline' : 1,'scrapycrawler.pipelines.MongoPipeline' : 2}
IMAGES_STORE = '/var/www/scrapycrawler/dowload'

и ниже полный код трубопровода

import scrapy
import string
import pymongo
from scrapy.pipelines.images import ImagesPipeline

class MyImagesPipeline(ImagesPipeline):
    def process_item(self, item, spider):
        if spider.name not in ['spider1', 'spider5']:
            return super(ImagesPipeline, self).process_item(item, spider)
        else:
           return item 

    def file_path(self, request, response=None, info=None):
        image_name = string.split(request.url, '/')[-1]
        dir1 = image_name[0]
        dir2 = image_name[1]
        return dir1 + '/' + dir2 + '/' +image_name

class MongoPipeline(object):

    collection_name = 'scrapy_items'
    collection_url='snapdeal_urls'

    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'scraping')
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        #self.db[self.collection_name].insert(dict(item))
        collection_name=item.get( 'collection_name', self.collection_name )
        self.db[collection_name].insert(dict(item))
        data = {}
        data['base_id'] = item['base_id']
        self.db[self.collection_url].update({
            'base_id': item['base_id']
        }, {
            '$set': {
            'image_download': 1
            }
        }, upsert=False, multi=True)
        return item

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы