Передайте URL-адрес в метод синтаксического анализа в scrapy, который был потреблен от RabbitMQ - PullRequest
0 голосов
/ 10 октября 2018

Я использую scrapy для получения сообщения (url) от RabbitMQ, но когда я использую yield для вызова метода parse, передавая мой url в качестве параметров. Программа не входит в метод обратного вызова. Ниже приведено следующеекод моего паука

# -*- coding: utf-8 -*-
import scrapy
import pika
from scrapy import cmdline
import json

class MydeletespiderSpider(scrapy.Spider):
    name = 'Mydeletespider'
    allowed_domains = []
    start_urls = []

def callback(self,ch, method, properties, body):
    print(" [x] Received %r" % body)
    body=json.loads(body)
    url=body.get('url')
    yield scrapy.Request(url=url,callback=self.parse)

def start_requests(self):
    cre = pika.PlainCredentials('test', 'test')
    connection = pika.BlockingConnection(
        pika.ConnectionParameters(host='10.0.12.103', port=5672, credentials=cre, socket_timeout=60))
    channel = connection.channel()



    channel.basic_consume(self.callback,
                          queue='Deletespider_Batch_Test',
                          no_ack=True)


    print(' [*] Waiting for messages. To exit press CTRL+C')
    channel.start_consuming()

def parse(self, response):
    print response.url
    pass

cmdline.execute('scrapy crawl Mydeletespider'.split())

Моя цель - передать URL-адрес методу разбора

Ответы [ 2 ]

0 голосов
/ 17 июля 2019

см. Это: http://30daydo.com/article/512

def start_requests (self), эта функция должна возвращать генератор, иначе scrap не будет работать.

0 голосов
/ 10 октября 2018

Чтобы использовать URL-адреса из rabbitmq, вы можете взглянуть на пакет scrapy-rabbitmq:

Scrapy-rabbitmq - это инструмент, который позволяет вам подавать и ставить в очередь URL-адреса из RabbitMQ черезПауки Scrapy, используя Scrapy Framework.

Чтобы включить его, установите эти значения в вашем settings.py:

# Enables scheduling storing requests queue in rabbitmq.
SCHEDULER = "scrapy_rabbitmq.scheduler.Scheduler"
# Don't cleanup rabbitmq queues, allows to pause/resume crawls.
SCHEDULER_PERSIST = True
# Schedule requests using a priority queue. (default)
SCHEDULER_QUEUE_CLASS = 'scrapy_rabbitmq.queue.SpiderQueue'
# RabbitMQ Queue to use to store requests
RABBITMQ_QUEUE_NAME = 'scrapy_queue'
# Provide host and port to RabbitMQ daemon
RABBITMQ_CONNECTION_PARAMETERS = {'host': 'localhost', 'port': 6666}

# Bonus:
# Store scraped item in rabbitmq for post-processing.
# ITEM_PIPELINES = {
#    'scrapy_rabbitmq.pipelines.RabbitMQPipeline': 1
# }

И в вашем пауке:

from scrapy import Spider
from scrapy_rabbitmq.spiders import RabbitMQMixin

class RabbitSpider(RabbitMQMixin, Spider):
    name = 'rabbitspider'

    def parse(self, response):
        # mixin will take urls from rabbit queue by itself
        pass
...